Kegagalan AI BENCHY
Kegagalan Format tambahan
Lihat model AI mana yang paling sering mengalami Format tambahan, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Total Biaya ↓.
Model yang ditampilkan
2
Total kegagalan
53
Model yang paling terdampak
Grok 4.20 Multi Agent Beta 2
32/32
Filter model
Tidak ada model yang cocok dengan pencarian dan filter saat ini.
| Peringkat | Model | Perusahaan | Jumlah Format tambahan | Skor | Total Biaya | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|---|
| #131 | North Mini Code none | Cohere | 2 | 5.1 | $0.000 | 4/21 | 29.8s |
| #132 | Hunter Alpha medium | OpenRouter | 1 | 5.1 | $0.000 | 8/18 | 10.3s |