Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

Qwen3.6 Flash 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain367 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki172 Pengetahuan umum149 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.288 Waktu respons (rata-rata) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
Total Tes 3 Tes Salah 3 Total Biaya $0.075 Waktu respons (rata-rata) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
Total Tes 3 Tes Salah 3 Total Biaya $0.027 Waktu respons (rata-rata) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
Total Tes 3 Tes Salah 3 Total Biaya $0.016 Waktu respons (rata-rata) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
Total Tes 3 Tes Salah 3 Total Biaya $0.287 Waktu respons (rata-rata) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
Total Tes 3 Tes Salah 3 Total Biaya $0.057 Waktu respons (rata-rata) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.007 Waktu respons (rata-rata) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
Total Tes 3 Tes Salah 3 Total Biaya $0.047 Waktu respons (rata-rata) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Total Tes 3 Tes Salah 3 Total Biaya $0.003 Waktu respons (rata-rata) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Total Tes 3 Tes Salah 3 Total Biaya $0.047 Waktu respons (rata-rata) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
Total Tes 3 Tes Salah 3 Total Biaya $0.020 Waktu respons (rata-rata) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Total Tes 3 Tes Salah 3 Total Biaya $0.007 Waktu respons (rata-rata) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
Total Tes 3 Tes Salah 3 Total Biaya $0.009 Waktu respons (rata-rata) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 22.0s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang