Kegagalan AI BENCHY
Kegagalan Format tambahan
Lihat model AI mana yang paling sering mengalami Format tambahan, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Total Biaya ↑.
32/32
Filter model
Tidak ada model yang cocok dengan pencarian dan filter saat ini.
| Peringkat | Model | Perusahaan | Jumlah Format tambahan | Skor | Total Biaya | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|---|
| #38 | Claude Opus 4.6 medium | Anthropic | 5 | 7.7 | $2.053 | 12/21 | 25.9s |
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 5.0 | $5.599 | 8/18 | 9.69s |