Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

Qwen3.6 Flash 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa25 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain368 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki173 Pengetahuan umum150 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#121	Qwen3.5-27B none	Qwen	2	5.8	$0.015	1/3	1.80s
Total Tes 3 Tes Salah 2 Total Biaya $0.015 Waktu respons (rata-rata) 1.80s
#122	GLM 5V Turbo none	Z.ai	2	5.5	$0.052	1/3	3.13s
Total Tes 3 Tes Salah 2 Total Biaya $0.052 Waktu respons (rata-rata) 3.13s
#129	GPT-5.4 none	OpenAI	2	5.5	$0.122	1/3	1.62s
Total Tes 3 Tes Salah 2 Total Biaya $0.122 Waktu respons (rata-rata) 1.62s
#136	Kimi K2.5 none	Moonshot AI	2	5.5	$0.027	1/3	24.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.027 Waktu respons (rata-rata) 24.6s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
Total Tes 3 Tes Salah 3 Total Biaya $0.017 Waktu respons (rata-rata) 1.41s
#138	Qwen3.6 27B none	Qwen	2	5.5	$0.025	1/3	4.16s
Total Tes 3 Tes Salah 2 Total Biaya $0.025 Waktu respons (rata-rata) 4.16s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
Total Tes 3 Tes Salah 3 Total Biaya $0.004 Waktu respons (rata-rata) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	2	3.9	$0.032	0/3	1.69s
Total Tes 3 Tes Salah 3 Total Biaya $0.032 Waktu respons (rata-rata) 1.69s
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Total Tes 3 Tes Salah 2 Total Biaya $0.038 Waktu respons (rata-rata) 913ms
#146	DeepSeek V3.2 none	DeepSeek	2	3.1	$0.016	0/3	14.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.016 Waktu respons (rata-rata) 14.5s
#148	Qwen3.6 35B A3B none	Qwen	2	5.5	$0.031	1/3	8.77s
Total Tes 3 Tes Salah 2 Total Biaya $0.031 Waktu respons (rata-rata) 8.77s
#154	MiMo-V2.5 none	Xiaomi	2	5.5	$0.006	1/3	3.24s
Total Tes 3 Tes Salah 2 Total Biaya $0.006 Waktu respons (rata-rata) 3.24s
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Total Tes 3 Tes Salah 3 Total Biaya $0.008 Waktu respons (rata-rata) 924ms
#179	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	0/3	2.64s
Total Tes 3 Tes Salah 3 Total Biaya $0.025 Waktu respons (rata-rata) 2.64s
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
Total Tes 3 Tes Salah 1 Total Biaya $0.667 Waktu respons (rata-rata) 84.4s

←

1 4 5 6 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang