Peringkat kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Total kegagalan

245

Model yang paling terdampak

Granite 4.1 8B 4

Kategori

Dalam kategori Pemecahan teka-teki90 Dalam kategori Kecerdasan umum78 Dalam kategori Trik anti-AI33 Dalam kategori Kepatuhan instruksi18 Dalam kategori Pemrograman16 Dalam kategori Pemanggilan alat8 Dalam kategori Gabungan1 Dalam kategori Spesifik domain1

140/140

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#201	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
Total Tes 22 Tes Salah 20 Total Biaya $0.007 Waktu respons (rata-rata) 1.45s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
Total Tes 19 Tes Salah 17 Total Biaya $0.000 Waktu respons (rata-rata) 728ms
#210	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
Total Tes 16 Tes Salah 14 Total Biaya $0.001 Waktu respons (rata-rata) 782ms
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Total Tes 22 Tes Salah 19 Total Biaya $0.036 Waktu respons (rata-rata) 82.2s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
Total Tes 19 Tes Salah 16 Total Biaya $0.008 Waktu respons (rata-rata) 1.62s
#161	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
Total Tes 22 Tes Salah 18 Total Biaya $0.061 Waktu respons (rata-rata) 5.52s
#162	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
Total Tes 22 Tes Salah 18 Total Biaya $0.016 Waktu respons (rata-rata) 8.58s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Total Tes 22 Tes Salah 18 Total Biaya $0.021 Waktu respons (rata-rata) 19.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Total Tes 22 Tes Salah 18 Total Biaya $0.000 Waktu respons (rata-rata) 29.9s
#180	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
Total Tes 22 Tes Salah 18 Total Biaya $0.041 Waktu respons (rata-rata) 2.57s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
Total Tes 22 Tes Salah 18 Total Biaya $0.032 Waktu respons (rata-rata) 9.61s
#189	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
Total Tes 22 Tes Salah 18 Total Biaya $0.030 Waktu respons (rata-rata) 829ms
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Total Tes 22 Tes Salah 18 Total Biaya $0.166 Waktu respons (rata-rata) 142.6s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
Total Tes 21 Tes Salah 17 Total Biaya $0.008 Waktu respons (rata-rata) 2.98s
#199	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
Total Tes 21 Tes Salah 17 Total Biaya $0.003 Waktu respons (rata-rata) 12.9s

Kegagalan Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)