Eșecuri pe categorii AI BENCHY
Rezolvare de puzzle-uri: Formatare suplimentară
Rezolvare de puzzle-uri
Formatare suplimentară
Vezi ce modele AI au cele mai mari șanse să întâmpine Formatare suplimentară la Rezolvare de puzzle-uri, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↓.
Motive de eșec
| Rang | Model | Companie | Număr de Formatare suplimentară | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #42 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.7 | 2/3 | 2.92s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 7.0 | 1/3 | 4.71s |