Kegagalan kategori AI BENCHY
Pemecahan teka-teki
Format tambahan
Pemecahan teka-teki
Format tambahan
Lihat model AI mana yang paling mungkin mengalami Format tambahan di Pemecahan teka-teki, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.
Alasan kegagalan terkait
Kategori terkait
| Peringkat | Model | Perusahaan | Jumlah Format tambahan | Skor kategori | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #25 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.0 | 2/3 | 2.92s |