Peringkat kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

246

Model yang paling terdampak

MiniMax M2.7 5

Kategori

Dalam kategori Pemecahan teka-teki90 Dalam kategori Kecerdasan umum78 Dalam kategori Trik anti-AI33 Dalam kategori Kepatuhan instruksi19 Dalam kategori Pemrograman16 Dalam kategori Pemanggilan alat8 Dalam kategori Gabungan1 Dalam kategori Spesifik domain1

141/141

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Total Tes 22 Tes Salah 18 Total Biaya $0.021 Waktu respons (rata-rata) 19.2s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
Total Tes 21 Tes Salah 15 Total Biaya $0.047 Waktu respons (rata-rata) 2.82s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Total Tes 22 Tes Salah 18 Total Biaya $0.000 Waktu respons (rata-rata) 29.9s
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
Total Tes 22 Tes Salah 17 Total Biaya $0.008 Waktu respons (rata-rata) 5.97s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
Total Tes 22 Tes Salah 16 Total Biaya $0.002 Waktu respons (rata-rata) 10.7s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
Total Tes 22 Tes Salah 13 Total Biaya $0.026 Waktu respons (rata-rata) 55.1s
#186	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
Total Tes 22 Tes Salah 18 Total Biaya $0.041 Waktu respons (rata-rata) 2.57s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Total Tes 18 Tes Salah 10 Total Biaya $5.599 Waktu respons (rata-rata) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
Total Tes 18 Tes Salah 10 Total Biaya $0.000 Waktu respons (rata-rata) 10.3s
#200	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Total Tes 22 Tes Salah 18 Total Biaya $0.166 Waktu respons (rata-rata) 142.6s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
Total Tes 21 Tes Salah 15 Total Biaya $0.000 Waktu respons (rata-rata) 1.27s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
Total Tes 18 Tes Salah 12 Total Biaya $0.000 Waktu respons (rata-rata) 4.70s
#206	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
Total Tes 21 Tes Salah 17 Total Biaya $0.025 Waktu respons (rata-rata) 2.76s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
Total Tes 19 Tes Salah 12 Total Biaya $0.547 Waktu respons (rata-rata) 28.7s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
Total Tes 19 Tes Salah 13 Total Biaya $0.010 Waktu respons (rata-rata) 21.6s

Kegagalan Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)