Eșecuri pe categorii AI BENCHY
Specific domeniului: Formatare suplimentară
Specific domeniului
Formatare suplimentară
Vezi ce modele AI au cele mai mari șanse să întâmpine Formatare suplimentară la Specific domeniului, ca să găsești mai repede punctele slabe.
Motive de eșec
| Rang | Model | Companie | Număr de Formatare suplimentară | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 5.3 | 1/3 | 37.9s |
| #69 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.3 | 1/3 | 34.5s |
| #65 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 47.9s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |