Peringkat Pemrograman x Tidak mengikuti instruksi

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Gemini 3.5 Flash 1

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Pemecahan teka-teki82 Kecerdasan umum74 Trik anti-AI31 Pemrograman16 Kepatuhan instruksi15 Pemanggilan alat6 Gabungan1 Spesifik domain1

16/16

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
Total Tes 3 Tes Salah 1 Total Biaya $0.582 Waktu respons (rata-rata) 12.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Total Tes 3 Tes Salah 2 Total Biaya $2.053 Waktu respons (rata-rata) 30.1s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Total Tes 3 Tes Salah 2 Total Biaya $0.539 Waktu respons (rata-rata) 3.29s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.034 Waktu respons (rata-rata) 13.4s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
Total Tes 3 Tes Salah 3 Total Biaya $0.030 Waktu respons (rata-rata) 7.55s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Total Tes 3 Tes Salah 2 Total Biaya $0.108 Waktu respons (rata-rata) 2.75s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.078 Waktu respons (rata-rata) 82.6s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
Total Tes 1 Tes Salah 1 Total Biaya $0.069 Waktu respons (rata-rata) 23.6s
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
Total Tes 3 Tes Salah 3 Total Biaya $0.017 Waktu respons (rata-rata) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
Total Tes 3 Tes Salah 3 Total Biaya $0.032 Waktu respons (rata-rata) 1.69s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.017 Waktu respons (rata-rata) 14.5s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
Total Tes 1 Tes Salah 1 Total Biaya $0.033 Waktu respons (rata-rata) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 79.2s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
Total Tes 3 Tes Salah 3 Total Biaya $0.025 Waktu respons (rata-rata) 2.64s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Total Tes 3 Tes Salah 3 Total Biaya $0.003 Waktu respons (rata-rata) 775ms

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang