Eșecuri pe categorii AI BENCHY
Specific domeniului: Formatare suplimentară
Specific domeniului
Formatare suplimentară
Vezi ce modele AI au cele mai mari șanse să întâmpine Formatare suplimentară la Specific domeniului, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↑.
| Rang | Model | Companie | Număr de Formatare suplimentară | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |
| #50 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #47 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 55.1s |
| #37 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |