Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Kimi K2.5 10.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
Total Tes 2 Tes Salah 1 Total Biaya $0.044 Waktu respons (rata-rata) 2.82s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
Total Tes 2 Tes Salah 0 Total Biaya $0.935 Waktu respons (rata-rata) 2.80s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
Total Tes 2 Tes Salah 0 Total Biaya $2.077 Waktu respons (rata-rata) 2.78s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
Total Tes 2 Tes Salah 0 Total Biaya $0.187 Waktu respons (rata-rata) 2.77s
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
Total Tes 2 Tes Salah 0 Total Biaya $0.831 Waktu respons (rata-rata) 2.77s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
Total Tes 2 Tes Salah 0 Total Biaya $1.234 Waktu respons (rata-rata) 2.73s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
Total Tes 2 Tes Salah 0 Total Biaya $0.642 Waktu respons (rata-rata) 2.70s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Total Tes 2 Tes Salah 1 Total Biaya $0.127 Waktu respons (rata-rata) 2.67s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
Total Tes 2 Tes Salah 0 Total Biaya $0.482 Waktu respons (rata-rata) 2.67s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.63s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Total Tes 2 Tes Salah 0 Total Biaya $0.643 Waktu respons (rata-rata) 2.62s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
Total Tes 2 Tes Salah 0 Total Biaya $0.476 Waktu respons (rata-rata) 2.61s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
Total Tes 2 Tes Salah 0 Total Biaya $2.057 Waktu respons (rata-rata) 2.61s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
Total Tes 2 Tes Salah 0 Total Biaya $0.117 Waktu respons (rata-rata) 2.59s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
Total Tes 2 Tes Salah 1 Total Biaya $0.548 Waktu respons (rata-rata) 2.58s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)