Peringkat kegagalan Format tambahan

Kegagalan AI BENCHY

Lihat model AI mana yang paling sering mengalami Format tambahan, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Total Biaya ↓.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.20 Multi Agent Beta 2

Kategori

Dalam kategori Trik anti-AI18 Dalam kategori Spesifik domain13 Dalam kategori Pemrograman11 Dalam kategori Parsing dan ekstraksi data4 Dalam kategori Pemecahan teka-teki4 Dalam kategori Kepatuhan instruksi2 Dalam kategori Gabungan1

32/32

Peringkat	Model	Perusahaan	Jumlah Format tambahan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#76	MiMo-V2.5 medium	Xiaomi	2	6.7	$0.063	12/21	27.1s
Total Tes 21 Tes Salah 9 Total Biaya $0.063 Waktu respons (rata-rata) 27.1s
#155	Grok 4.20 none	X AI	1	4.4	$0.057	6/18	1.11s
Total Tes 18 Tes Salah 12 Total Biaya $0.057 Waktu respons (rata-rata) 1.11s
#62	MiMo-V2-Flash medium	Xiaomi	1	7.1	$0.043	12/21	20.1s
Total Tes 21 Tes Salah 9 Total Biaya $0.043 Waktu respons (rata-rata) 20.1s
#165	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/21	82.2s
Total Tes 21 Tes Salah 18 Total Biaya $0.036 Waktu respons (rata-rata) 82.2s
#58	DeepSeek V4 Pro none	DeepSeek	1	7.2	$0.034	10/21	6.41s
Total Tes 21 Tes Salah 11 Total Biaya $0.034 Waktu respons (rata-rata) 6.41s
#159	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	4/21	2.76s
Total Tes 21 Tes Salah 17 Total Biaya $0.025 Waktu respons (rata-rata) 2.76s
#114	Mimo V2 Omni none	Xiaomi	1	5.7	$0.021	8/21	2.44s
Total Tes 21 Tes Salah 13 Total Biaya $0.021 Waktu respons (rata-rata) 2.44s
#126	DeepSeek V3.2 none	DeepSeek	2	5.3	$0.017	6/21	13.8s
Total Tes 21 Tes Salah 15 Total Biaya $0.017 Waktu respons (rata-rata) 13.8s
#130	Qwen3 Coder Next none	Qwen	1	5.1	$0.009	5/21	8.62s
Total Tes 21 Tes Salah 16 Total Biaya $0.009 Waktu respons (rata-rata) 8.62s
#117	DeepSeek V4 Flash none	DeepSeek	2	5.5	$0.007	5/21	26.8s
Total Tes 21 Tes Salah 16 Total Biaya $0.007 Waktu respons (rata-rata) 26.8s
#134	MiMo-V2.5 none	Xiaomi	1	5.1	$0.007	5/21	2.20s
Total Tes 21 Tes Salah 16 Total Biaya $0.007 Waktu respons (rata-rata) 2.20s
#163	Granite 4.1 8B none	IBM Granite	1	4.0	$0.003	2/21	728ms
Total Tes 21 Tes Salah 19 Total Biaya $0.003 Waktu respons (rata-rata) 728ms
#158	Hy3 preview none	Tencent	1	4.3	$0.003	4/21	12.9s
Total Tes 21 Tes Salah 17 Total Biaya $0.003 Waktu respons (rata-rata) 12.9s
#107	North Mini Code medium	Cohere	2	5.8	$0.000	9/21	106.2s
Total Tes 21 Tes Salah 12 Total Biaya $0.000 Waktu respons (rata-rata) 106.2s
#110	Owl Alpha none	Openrouter	1	5.8	$0.000	7/21	9.88s
Total Tes 21 Tes Salah 14 Total Biaya $0.000 Waktu respons (rata-rata) 9.88s

Kegagalan Format tambahan

Filter model

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs Skor

Model teratas menurut Waktu respons (rata-rata)