Eșecuri pe categorii AI BENCHY
Specific domeniului: Formatare suplimentară
Specific domeniului
Formatare suplimentară
Vezi ce modele AI au cele mai mari șanse să întâmpine Formatare suplimentară la Specific domeniului, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↓.
| Rang | Model | Companie | Număr de Formatare suplimentară | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #37 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 55.1s |
| #47 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #50 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |