Peringkat Pemrograman x Tidak mengikuti instruksi

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Granite 4.1 8B 1

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Pemecahan teka-teki82 Kecerdasan umum74 Trik anti-AI31 Pemrograman16 Kepatuhan instruksi15 Pemanggilan alat6 Gabungan1 Spesifik domain1

16/16

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Total Tes 3 Tes Salah 3 Total Biaya $0.003 Waktu respons (rata-rata) 775ms
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
Total Tes 3 Tes Salah 3 Total Biaya $0.017 Waktu respons (rata-rata) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
Total Tes 3 Tes Salah 3 Total Biaya $0.032 Waktu respons (rata-rata) 1.69s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
Total Tes 3 Tes Salah 3 Total Biaya $0.025 Waktu respons (rata-rata) 2.64s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Total Tes 3 Tes Salah 2 Total Biaya $0.108 Waktu respons (rata-rata) 2.75s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Total Tes 3 Tes Salah 2 Total Biaya $0.539 Waktu respons (rata-rata) 3.29s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
Total Tes 3 Tes Salah 3 Total Biaya $0.030 Waktu respons (rata-rata) 7.55s
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
Total Tes 3 Tes Salah 1 Total Biaya $0.582 Waktu respons (rata-rata) 12.6s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.034 Waktu respons (rata-rata) 13.4s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.017 Waktu respons (rata-rata) 14.5s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
Total Tes 1 Tes Salah 1 Total Biaya $0.069 Waktu respons (rata-rata) 23.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Total Tes 3 Tes Salah 2 Total Biaya $2.053 Waktu respons (rata-rata) 30.1s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
Total Tes 1 Tes Salah 1 Total Biaya $0.033 Waktu respons (rata-rata) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 79.2s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.078 Waktu respons (rata-rata) 82.6s

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang