Eșecuri AI BENCHY
Eșecuri Răspuns greșit
Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi.
Categorii
În categoria Specific domeniului288 În categoria Trucuri anti-AI230 În categoria Rezolvare de puzzle-uri145 În categoria Cultură generală119 În categoria Respectarea instrucțiunilor51 În categoria Combinat50 În categoria Programare41 În categoria Parsare și extragere de date31 În categoria Inteligență generală26 În categoria Apelare instrumente2
| Rang | Model | Companie | Număr de Răspuns greșit | Scor | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #133 | Mercury 2 none | Inception | 14 | 4.7 | 4/19 | 610ms |
| #137 | GPT-5.4 Nano none | OpenAI | 14 | 4.5 | 3/19 | 1.36s |
| #114 | Kimi K2.5 none | Moonshot AI | 13 | 5.4 | 6/19 | 12.6s |
| #126 | Mistral Small 4 none | Mistral | 13 | 5.1 | 5/19 | 651ms |
| #129 | GPT-4o-mini none | OpenAI | 13 | 4.9 | 5/19 | 1.90s |
| #139 | MiMo-V2-Flash none | Xiaomi | 13 | 4.5 | 3/19 | 2.73s |
| #141 | Grok 4.1 Fast none | X AI | 13 | 4.4 | 3/19 | 1.67s |
| #123 | Qwen3 Coder Next none | Qwen | 12 | 5.2 | 5/19 | 9.44s |
| #124 | Nemotron 3 Super none | NVIDIA | 12 | 5.2 | 5/19 | 5.80s |
| #130 | MiMo-V2.5 none | Xiaomi | 12 | 4.9 | 4/19 | 2.02s |
| #132 | Trinity Large Preview none | Arcee AI | 12 | 4.8 | 4/19 | 3.03s |
| #134 | Qwen3.5-9B none | Qwen | 12 | 4.7 | 4/19 | 1.51s |
| #140 | Ling-2.6-1T none | Inclusionai | 12 | 4.5 | 4/19 | 8.79s |
| #144 | Granite 4.1 8B none | IBM Granite | 12 | 4.1 | 2/19 | 743ms |
| #88 | Seed-2.0-Lite none | Bytedance Seed | 11 | 6.0 | 8/19 | 2.50s |