Eșecuri pe categorii AI BENCHY
Specific domeniului
Formatare suplimentară
Specific domeniului
Formatare suplimentară
Vezi ce modele AI au cele mai mari șanse să întâmpine Formatare suplimentară la Specific domeniului, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↑.
Motive de eșec asociate
| Rang | Model | Companie | Număr de Formatare suplimentară | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #11 | Claude Sonnet 4.6 medium | Anthropic | 1 | 10.0 | 0/3 | 0ms |
| #26 | Claude Opus 4.6 medium | Anthropic | 2 | 10.0 | 0/3 | 83.4s |