Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

Qwen3.6 Flash 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa25 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain368 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki173 Pengetahuan umum150 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	8.4	$0.158	2/3	26.5s
Total Tes 3 Tes Salah 1 Total Biaya $0.158 Waktu respons (rata-rata) 26.5s
#33	GPT-5.4 Mini medium	OpenAI	1	8.4	$0.526	2/3	57.9s
Total Tes 3 Tes Salah 1 Total Biaya $0.526 Waktu respons (rata-rata) 57.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.310 Waktu respons (rata-rata) 180.7s
#36	Claude Sonnet 5 medium	Anthropic	1	9.0	$0.550	2/3	17.3s
Total Tes 3 Tes Salah 1 Total Biaya $0.550 Waktu respons (rata-rata) 17.3s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.294 Waktu respons (rata-rata) 153.1s
#39	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Total Tes 3 Tes Salah 2 Total Biaya $1.418 Waktu respons (rata-rata) 33.3s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.588 Waktu respons (rata-rata) 114.5s
#46	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Total Tes 3 Tes Salah 2 Total Biaya $1.270 Waktu respons (rata-rata) 7.58s
#47	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Total Tes 3 Tes Salah 2 Total Biaya $0.614 Waktu respons (rata-rata) 41.2s
#50	Step 3.7 Flash low	Stepfun	1	8.2	$0.341	2/3	9.46s
Total Tes 3 Tes Salah 1 Total Biaya $0.341 Waktu respons (rata-rata) 9.46s
#54	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.927 Waktu respons (rata-rata) 108.5s
#57	Mercury 2 medium	Inception	1	8.2	$0.058	2/3	2.04s
Total Tes 3 Tes Salah 1 Total Biaya $0.058 Waktu respons (rata-rata) 2.04s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.042 Waktu respons (rata-rata) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.044 Waktu respons (rata-rata) 220.5s
#68	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Total Tes 3 Tes Salah 2 Total Biaya $0.316 Waktu respons (rata-rata) 5.19s

←

1 6 7 8 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang