Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Granite 4.1 8B 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
Total Tes 2 Tes Salah 0 Total Biaya $3.059 Waktu respons (rata-rata) 2.43s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
Total Tes 2 Tes Salah 0 Total Biaya $1.316 Waktu respons (rata-rata) 2.50s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
Total Tes 2 Tes Salah 1 Total Biaya $0.045 Waktu respons (rata-rata) 2.51s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
Total Tes 2 Tes Salah 0 Total Biaya $0.387 Waktu respons (rata-rata) 2.53s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
Total Tes 2 Tes Salah 0 Total Biaya $0.068 Waktu respons (rata-rata) 2.57s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
Total Tes 2 Tes Salah 0 Total Biaya $0.467 Waktu respons (rata-rata) 2.58s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
Total Tes 2 Tes Salah 1 Total Biaya $0.548 Waktu respons (rata-rata) 2.58s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
Total Tes 2 Tes Salah 0 Total Biaya $0.117 Waktu respons (rata-rata) 2.59s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
Total Tes 2 Tes Salah 0 Total Biaya $2.057 Waktu respons (rata-rata) 2.61s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
Total Tes 2 Tes Salah 0 Total Biaya $0.476 Waktu respons (rata-rata) 2.61s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Total Tes 2 Tes Salah 0 Total Biaya $0.643 Waktu respons (rata-rata) 2.62s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.63s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
Total Tes 2 Tes Salah 0 Total Biaya $0.482 Waktu respons (rata-rata) 2.67s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Total Tes 2 Tes Salah 1 Total Biaya $0.127 Waktu respons (rata-rata) 2.67s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
Total Tes 2 Tes Salah 0 Total Biaya $0.642 Waktu respons (rata-rata) 2.70s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)