Peringkat kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Total kegagalan

246

Model yang paling terdampak

Nemotron 3 Nano Omni 30b A3b Reasoning 2

Kategori

Dalam kategori Pemecahan teka-teki90 Dalam kategori Kecerdasan umum78 Dalam kategori Trik anti-AI33 Dalam kategori Kepatuhan instruksi19 Dalam kategori Pemrograman16 Dalam kategori Pemanggilan alat8 Dalam kategori Gabungan1 Dalam kategori Spesifik domain1

141/141

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
Total Tes 22 Tes Salah 14 Total Biaya $0.015 Waktu respons (rata-rata) 7.64s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
Total Tes 22 Tes Salah 8 Total Biaya $0.604 Waktu respons (rata-rata) 7.65s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
Total Tes 22 Tes Salah 10 Total Biaya $0.661 Waktu respons (rata-rata) 8.12s
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
Total Tes 22 Tes Salah 3 Total Biaya $0.642 Waktu respons (rata-rata) 8.20s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Total Tes 22 Tes Salah 14 Total Biaya $0.048 Waktu respons (rata-rata) 8.42s
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
Total Tes 22 Tes Salah 18 Total Biaya $0.016 Waktu respons (rata-rata) 8.58s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Total Tes 22 Tes Salah 17 Total Biaya $0.025 Waktu respons (rata-rata) 9.12s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
Total Tes 22 Tes Salah 16 Total Biaya $0.016 Waktu respons (rata-rata) 9.15s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
Total Tes 22 Tes Salah 10 Total Biaya $0.128 Waktu respons (rata-rata) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.1	$0.584	14/22	9.48s
Total Tes 22 Tes Salah 8 Total Biaya $0.584 Waktu respons (rata-rata) 9.48s
#193	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
Total Tes 22 Tes Salah 18 Total Biaya $0.032 Waktu respons (rata-rata) 9.61s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Total Tes 18 Tes Salah 10 Total Biaya $5.599 Waktu respons (rata-rata) 9.69s
#137	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
Total Tes 18 Tes Salah 4 Total Biaya $0.750 Waktu respons (rata-rata) 9.75s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
Total Tes 21 Tes Salah 14 Total Biaya $0.000 Waktu respons (rata-rata) 9.88s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
Total Tes 22 Tes Salah 15 Total Biaya $0.041 Waktu respons (rata-rata) 10.1s

Kegagalan Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)