Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Granite 4.1 8B 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
Total Tes 2 Tes Salah 0 Total Biaya $1.166 Waktu respons (rata-rata) 1.37s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 1.37s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
Total Tes 2 Tes Salah 1 Total Biaya $0.096 Waktu respons (rata-rata) 1.38s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
Total Tes 2 Tes Salah 0 Total Biaya $0.231 Waktu respons (rata-rata) 1.40s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
Total Tes 2 Tes Salah 0 Total Biaya $0.676 Waktu respons (rata-rata) 1.43s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
Total Tes 2 Tes Salah 0 Total Biaya $0.505 Waktu respons (rata-rata) 1.46s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
Total Tes 2 Tes Salah 0 Total Biaya $0.095 Waktu respons (rata-rata) 1.46s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
Total Tes 2 Tes Salah 0 Total Biaya $0.041 Waktu respons (rata-rata) 1.48s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
Total Tes 2 Tes Salah 0 Total Biaya $0.519 Waktu respons (rata-rata) 1.48s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
Total Tes 2 Tes Salah 0 Total Biaya $0.646 Waktu respons (rata-rata) 1.49s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
Total Tes 2 Tes Salah 0 Total Biaya $0.048 Waktu respons (rata-rata) 1.50s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
Total Tes 2 Tes Salah 0 Total Biaya $0.077 Waktu respons (rata-rata) 1.51s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
Total Tes 2 Tes Salah 0 Total Biaya $1.207 Waktu respons (rata-rata) 1.52s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
Total Tes 2 Tes Salah 0 Total Biaya $0.054 Waktu respons (rata-rata) 1.52s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
Total Tes 2 Tes Salah 0 Total Biaya $0.621 Waktu respons (rata-rata) 1.52s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)