Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Granite 4.1 8B 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
Total Tes 2 Tes Salah 0 Total Biaya $1.477 Waktu respons (rata-rata) 1.57s
#93	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
Total Tes 2 Tes Salah 1 Total Biaya $0.085 Waktu respons (rata-rata) 1.58s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
Total Tes 2 Tes Salah 0 Total Biaya $0.454 Waktu respons (rata-rata) 1.58s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
Total Tes 2 Tes Salah 0 Total Biaya $0.369 Waktu respons (rata-rata) 1.59s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Total Tes 2 Tes Salah 1 Total Biaya $0.184 Waktu respons (rata-rata) 1.64s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
Total Tes 2 Tes Salah 0 Total Biaya $0.041 Waktu respons (rata-rata) 1.64s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
Total Tes 2 Tes Salah 0 Total Biaya $0.073 Waktu respons (rata-rata) 1.67s
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
Total Tes 2 Tes Salah 0 Total Biaya $0.015 Waktu respons (rata-rata) 1.68s
#170	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
Total Tes 2 Tes Salah 1 Total Biaya $0.147 Waktu respons (rata-rata) 1.72s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
Total Tes 2 Tes Salah 0 Total Biaya $0.067 Waktu respons (rata-rata) 1.75s
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
Total Tes 2 Tes Salah 0 Total Biaya $1.017 Waktu respons (rata-rata) 1.79s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
Total Tes 2 Tes Salah 0 Total Biaya $0.082 Waktu respons (rata-rata) 1.80s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
Total Tes 2 Tes Salah 0 Total Biaya $0.187 Waktu respons (rata-rata) 1.81s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
Total Tes 2 Tes Salah 0 Total Biaya $0.515 Waktu respons (rata-rata) 1.83s
#167	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
Total Tes 2 Tes Salah 1 Total Biaya $0.061 Waktu respons (rata-rata) 1.86s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)