Eșecuri pe categorii AI BENCHY
Parsare și extragere de date: Răspuns greșit
Parsare și extragere de date
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Parsare și extragere de date, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↓.
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 6.5 | 1/2 | 81.8s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 3.0 | 0/2 | 45.9s |
| #135 | Kimi K2.5 none | Moonshot AI | 1 | 7.3 | 1/2 | 42.1s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 6.5 | 1/2 | 37.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 6.3 | 1/2 | 21.9s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 18.8s |
| #119 | Cobuddy medium | Baidu | 1 | 6.3 | 1/2 | 17.4s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 7.1 | 1/2 | 12.3s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 6.3 | 1/2 | 9.42s |
| #100 | Grok Build 0.1 none | X AI | 1 | 3.8 | 0/2 | 9.33s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 6.5 | 1/2 | 8.48s |
| #129 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 2.7 | 0/2 | 6.33s |