Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

North Mini Code 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain367 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki172 Pengetahuan umum149 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 320.4s
#60	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.044	1/3	248.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.044 Waktu respons (rata-rata) 248.7s
#62	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.044 Waktu respons (rata-rata) 220.5s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
Total Tes 3 Tes Salah 3 Total Biaya $1.148 Waktu respons (rata-rata) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.303 Waktu respons (rata-rata) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.683 Waktu respons (rata-rata) 183.9s
#33	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.310 Waktu respons (rata-rata) 180.7s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.536 Waktu respons (rata-rata) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Total Tes 3 Tes Salah 1 Total Biaya $0.175 Waktu respons (rata-rata) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Total Tes 3 Tes Salah 1 Total Biaya $1.696 Waktu respons (rata-rata) 155.7s
#36	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.294 Waktu respons (rata-rata) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Total Tes 3 Tes Salah 1 Total Biaya $0.960 Waktu respons (rata-rata) 146.5s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.317 Waktu respons (rata-rata) 125.3s
#44	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.588 Waktu respons (rata-rata) 114.5s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Total Tes 3 Tes Salah 2 Total Biaya $0.609 Waktu respons (rata-rata) 109.9s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang