Peringkat kegagalan Format tambahan

Kegagalan AI BENCHY

Lihat model AI mana yang paling sering mengalami Format tambahan, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Total Biaya ↑.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

North Mini Code 2

Kategori

Dalam kategori Trik anti-AI18 Dalam kategori Spesifik domain13 Dalam kategori Pemrograman11 Dalam kategori Parsing dan ekstraksi data4 Dalam kategori Pemecahan teka-teki4 Dalam kategori Kepatuhan instruksi2 Dalam kategori Gabungan1

32/32

Peringkat	Model	Perusahaan	Jumlah Format tambahan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#38	Claude Opus 4.6 medium	Anthropic	5	7.7	$2.053	12/21	25.9s
Total Tes 21 Tes Salah 9 Total Biaya $2.053 Waktu respons (rata-rata) 25.9s
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
Total Tes 18 Tes Salah 10 Total Biaya $5.599 Waktu respons (rata-rata) 9.69s

Kegagalan Format tambahan

Filter model

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs Skor

Model teratas menurut Waktu respons (rata-rata)