Peringkat Pemrograman x Tidak ada jawaban

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Tidak ada jawaban di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Jumlah kegagalan ↑.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

GLM 5 Turbo 1

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Pemrograman18 Pengetahuan umum10 Spesifik domain6 Parsing dan ekstraksi data5 Trik anti-AI4 Gabungan3 Kepatuhan instruksi2 Pemanggilan alat2 Pemecahan teka-teki2

16/16

Peringkat	Model	Perusahaan	Jumlah Tidak ada jawaban	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
Total Tes 3 Tes Salah 1 Total Biaya $0.323 Waktu respons (rata-rata) 45.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.888 Waktu respons (rata-rata) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.348 Waktu respons (rata-rata) 217.5s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.288 Waktu respons (rata-rata) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.683 Waktu respons (rata-rata) 183.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
Total Tes 3 Tes Salah 1 Total Biaya $0.146 Waktu respons (rata-rata) 50.5s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
Total Tes 2 Tes Salah 2 Total Biaya $0.070 Waktu respons (rata-rata) 258.4s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
Total Tes 3 Tes Salah 1 Total Biaya $0.336 Waktu respons (rata-rata) 143.0s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
Total Tes 3 Tes Salah 3 Total Biaya $0.033 Waktu respons (rata-rata) 219.8s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.401 Waktu respons (rata-rata) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
Total Tes 3 Tes Salah 2 Total Biaya $0.100 Waktu respons (rata-rata) 101.9s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.303 Waktu respons (rata-rata) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.054 Waktu respons (rata-rata) 55.3s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.036 Waktu respons (rata-rata) 100.9s
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.045 Waktu respons (rata-rata) 272.5s

Filter model

Model teratas menurut Jumlah Tidak ada jawaban

Jumlah Tidak ada jawaban vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Tidak ada jawaban

Filter model

Model teratas menurut Jumlah Tidak ada jawaban

Jumlah Tidak ada jawaban vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang