Peringkat Pemrograman x Tidak ada jawaban

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Tidak ada jawaban di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Gemma 4 26B A4B 2

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Pemrograman18 Pengetahuan umum10 Spesifik domain6 Parsing dan ekstraksi data5 Trik anti-AI4 Gabungan3 Kepatuhan instruksi2 Pemanggilan alat2 Pemecahan teka-teki2

16/16

Peringkat	Model	Perusahaan	Jumlah Tidak ada jawaban	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.045 Waktu respons (rata-rata) 272.5s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
Total Tes 3 Tes Salah 3 Total Biaya $1.148 Waktu respons (rata-rata) 206.2s
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
Total Tes 3 Tes Salah 1 Total Biaya $0.323 Waktu respons (rata-rata) 45.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.888 Waktu respons (rata-rata) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.348 Waktu respons (rata-rata) 217.5s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.288 Waktu respons (rata-rata) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.683 Waktu respons (rata-rata) 183.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
Total Tes 3 Tes Salah 1 Total Biaya $0.146 Waktu respons (rata-rata) 50.5s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
Total Tes 2 Tes Salah 2 Total Biaya $0.070 Waktu respons (rata-rata) 258.4s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
Total Tes 3 Tes Salah 1 Total Biaya $0.336 Waktu respons (rata-rata) 143.0s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
Total Tes 3 Tes Salah 3 Total Biaya $0.033 Waktu respons (rata-rata) 219.8s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.401 Waktu respons (rata-rata) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
Total Tes 3 Tes Salah 2 Total Biaya $0.100 Waktu respons (rata-rata) 101.9s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.303 Waktu respons (rata-rata) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.054 Waktu respons (rata-rata) 55.3s

Filter model

Model teratas menurut Jumlah Tidak ada jawaban

Jumlah Tidak ada jawaban vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Tidak ada jawaban

Filter model

Model teratas menurut Jumlah Tidak ada jawaban

Jumlah Tidak ada jawaban vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang