Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

Laguna XS 2.1 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain367 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki172 Pengetahuan umum149 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Total Tes 3 Tes Salah 3 Total Biaya $0.003 Waktu respons (rata-rata) 623ms
#108	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Total Tes 3 Tes Salah 2 Total Biaya $0.016 Waktu respons (rata-rata) 736ms
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Total Tes 3 Tes Salah 3 Total Biaya $0.003 Waktu respons (rata-rata) 775ms
#109	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Total Tes 3 Tes Salah 2 Total Biaya $0.013 Waktu respons (rata-rata) 831ms
#112	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Total Tes 3 Tes Salah 2 Total Biaya $0.005 Waktu respons (rata-rata) 850ms
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Total Tes 3 Tes Salah 3 Total Biaya $0.007 Waktu respons (rata-rata) 901ms
#143	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Total Tes 3 Tes Salah 2 Total Biaya $0.038 Waktu respons (rata-rata) 913ms
#167	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Total Tes 3 Tes Salah 3 Total Biaya $0.008 Waktu respons (rata-rata) 924ms
#111	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Total Tes 3 Tes Salah 2 Total Biaya $0.013 Waktu respons (rata-rata) 938ms
#97	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Total Tes 3 Tes Salah 2 Total Biaya $0.018 Waktu respons (rata-rata) 967ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Total Tes 3 Tes Salah 3 Total Biaya $0.047 Waktu respons (rata-rata) 980ms
#116	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Total Tes 3 Tes Salah 2 Total Biaya $0.130 Waktu respons (rata-rata) 1.00s
#114	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Total Tes 3 Tes Salah 2 Total Biaya $0.027 Waktu respons (rata-rata) 1.02s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Total Tes 3 Tes Salah 3 Total Biaya $0.011 Waktu respons (rata-rata) 1.03s
#168	Grok 4.20 Beta none	X AI	1	1.8	$0.087	0/1	1.14s
Total Tes 1 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 1.14s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang