Peringkat kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Jumlah kegagalan ↑.

Model yang ditampilkan

Total kegagalan

246

Model yang paling terdampak

Gemini 3.5 Flash 1

Kategori

Dalam kategori Pemecahan teka-teki90 Dalam kategori Kecerdasan umum78 Dalam kategori Trik anti-AI33 Dalam kategori Kepatuhan instruksi19 Dalam kategori Pemrograman16 Dalam kategori Pemanggilan alat8 Dalam kategori Gabungan1 Dalam kategori Spesifik domain1

141/141

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#210	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Total Tes 22 Tes Salah 19 Total Biaya $0.036 Waktu respons (rata-rata) 82.2s
#211	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Total Tes 19 Tes Salah 14 Total Biaya $0.004 Waktu respons (rata-rata) 806ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
Total Tes 19 Tes Salah 15 Total Biaya $0.000 Waktu respons (rata-rata) 17.1s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Total Tes 12 Tes Salah 6 Total Biaya $0.020 Waktu respons (rata-rata) 39.0s
#216	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
Total Tes 16 Tes Salah 14 Total Biaya $0.001 Waktu respons (rata-rata) 782ms
#16	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
Total Tes 22 Tes Salah 6 Total Biaya $0.920 Waktu respons (rata-rata) 17.0s
#19	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
Total Tes 22 Tes Salah 7 Total Biaya $1.357 Waktu respons (rata-rata) 25.0s
#21	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
Total Tes 22 Tes Salah 7 Total Biaya $1.533 Waktu respons (rata-rata) 23.1s
#27	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
Total Tes 22 Tes Salah 9 Total Biaya $0.647 Waktu respons (rata-rata) 11.5s
#30	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Total Tes 22 Tes Salah 10 Total Biaya $1.694 Waktu respons (rata-rata) 31.5s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Total Tes 22 Tes Salah 8 Total Biaya $0.234 Waktu respons (rata-rata) 48.5s
#49	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.041	13/22	49.7s
Total Tes 22 Tes Salah 9 Total Biaya $0.041 Waktu respons (rata-rata) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Total Tes 22 Tes Salah 12 Total Biaya $0.200 Waktu respons (rata-rata) 79.1s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Total Tes 22 Tes Salah 10 Total Biaya $0.286 Waktu respons (rata-rata) 75.0s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.138 Waktu respons (rata-rata) 13.2s

Kegagalan Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)