Peringkat Pemrograman x Format tambahan

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Format tambahan di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

GLM 5.1 1

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa23 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Trik anti-AI20 Spesifik domain13 Pemrograman12 Pemecahan teka-teki6 Parsing dan ekstraksi data4 Kepatuhan instruksi3 Gabungan1

12/12

Peringkat	Model	Perusahaan	Jumlah Format tambahan	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.288 Waktu respons (rata-rata) 109.6s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
Total Tes 3 Tes Salah 3 Total Biaya $0.021 Waktu respons (rata-rata) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Total Tes 3 Tes Salah 3 Total Biaya $0.003 Waktu respons (rata-rata) 775ms
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Total Tes 3 Tes Salah 2 Total Biaya $1.418 Waktu respons (rata-rata) 33.3s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Total Tes 3 Tes Salah 2 Total Biaya $1.270 Waktu respons (rata-rata) 7.58s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Total Tes 3 Tes Salah 2 Total Biaya $0.614 Waktu respons (rata-rata) 41.2s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Total Tes 3 Tes Salah 2 Total Biaya $2.053 Waktu respons (rata-rata) 30.1s
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.131 Waktu respons (rata-rata) 144.7s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.927 Waktu respons (rata-rata) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.106 Waktu respons (rata-rata) 92.1s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Total Tes 3 Tes Salah 2 Total Biaya $0.316 Waktu respons (rata-rata) 5.19s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
Total Tes 3 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 36.9s

Filter model

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Format tambahan

Filter model

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang