Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

Qwen3.6 Flash 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain367 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki172 Pengetahuan umum149 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.433 Waktu respons (rata-rata) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.107 Waktu respons (rata-rata) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
Total Tes 3 Tes Salah 2 Total Biaya $0.111 Waktu respons (rata-rata) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Total Tes 3 Tes Salah 2 Total Biaya $0.609 Waktu respons (rata-rata) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.457 Waktu respons (rata-rata) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
Total Tes 3 Tes Salah 2 Total Biaya $0.023 Waktu respons (rata-rata) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
Total Tes 3 Tes Salah 3 Total Biaya $0.030 Waktu respons (rata-rata) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.036 Waktu respons (rata-rata) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
Total Tes 3 Tes Salah 2 Total Biaya $0.025 Waktu respons (rata-rata) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
Total Tes 3 Tes Salah 2 Total Biaya $0.054 Waktu respons (rata-rata) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.080 Waktu respons (rata-rata) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.061 Waktu respons (rata-rata) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.013 Waktu respons (rata-rata) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.081 Waktu respons (rata-rata) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
Total Tes 3 Tes Salah 2 Total Biaya $0.026 Waktu respons (rata-rata) 1.39s

←

1 2 3 4 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang