Peringkat kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Tes benar ↓.

Model yang ditampilkan

Total kegagalan

246

Model yang paling terdampak

Gemini 3.5 Flash 1

Kategori

Dalam kategori Pemecahan teka-teki90 Dalam kategori Kecerdasan umum78 Dalam kategori Trik anti-AI33 Dalam kategori Kepatuhan instruksi19 Dalam kategori Pemrograman16 Dalam kategori Pemanggilan alat8 Dalam kategori Gabungan1 Dalam kategori Spesifik domain1

141/141

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Total Tes 22 Tes Salah 10 Total Biaya $0.738 Waktu respons (rata-rata) 44.7s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
Total Tes 22 Tes Salah 10 Total Biaya $0.128 Waktu respons (rata-rata) 9.34s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.082 Waktu respons (rata-rata) 32.2s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
Total Tes 22 Tes Salah 10 Total Biaya $0.052 Waktu respons (rata-rata) 1.58s
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
Total Tes 22 Tes Salah 10 Total Biaya $0.139 Waktu respons (rata-rata) 84.8s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
Total Tes 21 Tes Salah 10 Total Biaya $0.457 Waktu respons (rata-rata) 23.1s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
Total Tes 21 Tes Salah 10 Total Biaya $0.108 Waktu respons (rata-rata) 174.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
Total Tes 22 Tes Salah 11 Total Biaya $0.106 Waktu respons (rata-rata) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Total Tes 22 Tes Salah 11 Total Biaya $0.078 Waktu respons (rata-rata) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
Total Tes 22 Tes Salah 11 Total Biaya $0.101 Waktu respons (rata-rata) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
Total Tes 22 Tes Salah 11 Total Biaya $0.467 Waktu respons (rata-rata) 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
Total Tes 22 Tes Salah 11 Total Biaya $0.524 Waktu respons (rata-rata) 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
Total Tes 22 Tes Salah 11 Total Biaya $0.103 Waktu respons (rata-rata) 68.7s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Total Tes 12 Tes Salah 6 Total Biaya $0.020 Waktu respons (rata-rata) 39.0s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Total Tes 21 Tes Salah 11 Total Biaya $0.683 Waktu respons (rata-rata) 41.2s

Kegagalan Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)