Peringkat kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

245

Model yang paling terdampak

MiniMax M2.7 5

Kategori

Dalam kategori Pemecahan teka-teki90 Dalam kategori Kecerdasan umum78 Dalam kategori Trik anti-AI33 Dalam kategori Kepatuhan instruksi18 Dalam kategori Pemrograman16 Dalam kategori Pemanggilan alat8 Dalam kategori Gabungan1 Dalam kategori Spesifik domain1

140/140

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#46	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Total Tes 22 Tes Salah 12 Total Biaya $0.200 Waktu respons (rata-rata) 79.1s
#47	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Total Tes 22 Tes Salah 10 Total Biaya $0.286 Waktu respons (rata-rata) 75.0s
#53	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.138 Waktu respons (rata-rata) 13.2s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Total Tes 22 Tes Salah 9 Total Biaya $0.571 Waktu respons (rata-rata) 6.88s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
Total Tes 22 Tes Salah 9 Total Biaya $1.627 Waktu respons (rata-rata) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
Total Tes 22 Tes Salah 10 Total Biaya $1.036 Waktu respons (rata-rata) 110.0s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Total Tes 22 Tes Salah 9 Total Biaya $0.779 Waktu respons (rata-rata) 47.4s
#75	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
Total Tes 22 Tes Salah 10 Total Biaya $0.777 Waktu respons (rata-rata) 29.5s
#77	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total Tes 22 Tes Salah 12 Total Biaya $0.600 Waktu respons (rata-rata) 99.0s
#82	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
Total Tes 22 Tes Salah 12 Total Biaya $0.096 Waktu respons (rata-rata) 11.6s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
Total Tes 22 Tes Salah 10 Total Biaya $0.187 Waktu respons (rata-rata) 33.9s
#97	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
Total Tes 22 Tes Salah 13 Total Biaya $0.469 Waktu respons (rata-rata) 148.7s
#103	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
Total Tes 22 Tes Salah 14 Total Biaya $0.090 Waktu respons (rata-rata) 4.76s
#106	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
Total Tes 22 Tes Salah 10 Total Biaya $0.052 Waktu respons (rata-rata) 1.58s
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
Total Tes 22 Tes Salah 11 Total Biaya $0.103 Waktu respons (rata-rata) 68.7s

Kegagalan Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)