Peringkat kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

245

Model yang paling terdampak

MiniMax M2.7 5

Kategori

Dalam kategori Pemecahan teka-teki90 Dalam kategori Kecerdasan umum78 Dalam kategori Trik anti-AI33 Dalam kategori Kepatuhan instruksi18 Dalam kategori Pemrograman16 Dalam kategori Pemanggilan alat8 Dalam kategori Gabungan1 Dalam kategori Spesifik domain1

140/140

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
Total Tes 18 Tes Salah 8 Total Biaya $2.044 Waktu respons (rata-rata) 62.0s
#148	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
Total Tes 21 Tes Salah 14 Total Biaya $0.000 Waktu respons (rata-rata) 9.88s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
Total Tes 21 Tes Salah 17 Total Biaya $0.008 Waktu respons (rata-rata) 2.98s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
Total Tes 22 Tes Salah 18 Total Biaya $0.032 Waktu respons (rata-rata) 9.61s
#188	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
Total Tes 21 Tes Salah 14 Total Biaya $0.000 Waktu respons (rata-rata) 39.9s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
Total Tes 22 Tes Salah 17 Total Biaya $0.340 Waktu respons (rata-rata) 68.3s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
Total Tes 21 Tes Salah 16 Total Biaya $0.000 Waktu respons (rata-rata) 1.22s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
Total Tes 19 Tes Salah 16 Total Biaya $0.008 Waktu respons (rata-rata) 1.62s
#13	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
Total Tes 22 Tes Salah 6 Total Biaya $0.920 Waktu respons (rata-rata) 17.0s
#16	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
Total Tes 22 Tes Salah 7 Total Biaya $1.357 Waktu respons (rata-rata) 25.0s
#18	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
Total Tes 22 Tes Salah 7 Total Biaya $1.533 Waktu respons (rata-rata) 23.1s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
Total Tes 22 Tes Salah 9 Total Biaya $0.647 Waktu respons (rata-rata) 11.5s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Total Tes 22 Tes Salah 10 Total Biaya $1.694 Waktu respons (rata-rata) 31.5s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Total Tes 22 Tes Salah 8 Total Biaya $0.234 Waktu respons (rata-rata) 48.5s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
Total Tes 22 Tes Salah 9 Total Biaya $0.042 Waktu respons (rata-rata) 49.7s

Kegagalan Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)