Eșecuri pe categorii AI BENCHY
Parsare și extragere de date: Răspuns greșit
Parsare și extragere de date
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Parsare și extragere de date, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↑.
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 2.7 | 0/2 | 6.33s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 3.0 | 0/2 | 45.9s |
| #100 | Grok Build 0.1 none | X AI | 1 | 3.8 | 0/2 | 9.33s |
| #129 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #160 | LFM2-24B-A2B none | Liquid | 2 | 3.0 | 0/2 | 714ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 3.8 | 0/2 | 1.42s |
| #163 | Granite 4.1 8B none | IBM Granite | 2 | 3.0 | 0/2 | 575ms |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 7.1 | 1/2 | 12.3s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 18.8s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 7.3 | 1/2 | 2.29s |
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 7.3 | 1/2 | 1.77s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 6.5 | 1/2 | 37.4s |
| #81 | Mercury 2 medium | Inception | 1 | 7.3 | 1/2 | 1.11s |