Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

Qwen3.6 Flash 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain367 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki172 Pengetahuan umum149 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#152	Mistral Small 4 medium	Mistral	3	4.4	$0.068	0/3	40.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.068 Waktu respons (rata-rata) 40.0s
#154	Qwen3.5-9B none	Qwen	3	3.9	$0.006	0/3	5.60s
Total Tes 3 Tes Salah 3 Total Biaya $0.006 Waktu respons (rata-rata) 5.60s
#158	GPT-4o-mini none	OpenAI	3	3.2	$0.006	0/3	1.63s
Total Tes 3 Tes Salah 3 Total Biaya $0.006 Waktu respons (rata-rata) 1.63s
#160	GLM 4.7 Flash none	Z.ai	3	4.3	$0.004	0/3	2.54s
Total Tes 3 Tes Salah 3 Total Biaya $0.004 Waktu respons (rata-rata) 2.54s
#161	Nemotron 3 Super none	NVIDIA	3	3.3	$0.006	0/3	2.64s
Total Tes 3 Tes Salah 3 Total Biaya $0.006 Waktu respons (rata-rata) 2.64s
#164	GPT-5.4 Nano none	OpenAI	3	4.6	$0.011	0/3	2.22s
Total Tes 3 Tes Salah 3 Total Biaya $0.011 Waktu respons (rata-rata) 2.22s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Total Tes 3 Tes Salah 3 Total Biaya $0.011 Waktu respons (rata-rata) 1.03s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.536 Waktu respons (rata-rata) 160.7s
#37	GPT-5.6 Terra medium	OpenAI	2	6.1	$0.496	1/3	7.19s
Total Tes 3 Tes Salah 2 Total Biaya $0.496 Waktu respons (rata-rata) 7.19s
#40	Gemini 3.1 Flash Lite Preview medium	Google	2	5.5	$0.068	1/3	4.09s
Total Tes 3 Tes Salah 2 Total Biaya $0.068 Waktu respons (rata-rata) 4.09s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.317 Waktu respons (rata-rata) 125.3s
#42	Gemini 3.1 Flash Lite medium	Google	2	5.5	$0.071	1/3	3.81s
Total Tes 3 Tes Salah 2 Total Biaya $0.071 Waktu respons (rata-rata) 3.81s
#47	GPT-5.6 Terra low	OpenAI	2	6.6	$0.343	1/3	9.56s
Total Tes 3 Tes Salah 2 Total Biaya $0.343 Waktu respons (rata-rata) 9.56s
#50	GPT-5.6 Luna high	OpenAI	2	5.5	$0.924	1/3	15.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.924 Waktu respons (rata-rata) 15.6s
#54	GPT-5.6 Luna medium	OpenAI	2	5.4	$0.258	1/3	10.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.258 Waktu respons (rata-rata) 10.4s

←

1 2 3 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang