Eșecuri AI BENCHY
Eșecuri Răspuns greșit
Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi.
Categorii
În categoria Specific domeniului182 În categoria Trucuri anti-AI165 În categoria Rezolvare de puzzle-uri85 În categoria Respectarea instrucțiunilor44 În categoria Combinat37 În categoria Programare28 În categoria Parsare și extragere de date19 În categoria Inteligență generală10 În categoria Apelare instrumente2
| Rang | Model | Companie | Număr de Răspuns greșit | Scor | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #7 | GPT-5.3-Codex medium | OpenAI | 3 | 8.6 | 13/18 | 15.4s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 3 | 8.5 | 13/17 | 13.9s |
| #11 | Gemini 3.1 Flash Lite Preview high | 3 | 8.4 | 12/16 | 68.8s | |
| #12 | Gemini 3 PRO Preview medium | 3 | 8.4 | 14/18 | 9.06s | |
| #16 | GPT-5.4 medium | OpenAI | 3 | 8.2 | 13/18 | 18.6s |
| #18 | GLM 5 Turbo medium | Z.ai | 3 | 8.1 | 12/18 | 17.7s |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 3 | 8.1 | 13/18 | 31.4s |
| #20 | Qwen3.6 Plus medium | Qwen | 3 | 8.1 | 13/18 | 15.3s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 3 | 8.1 | 12/18 | 12.3s |
| #25 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 3 | 8.0 | 12/18 | 46.4s |
| #30 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #31 | GLM 5V Turbo medium | Z.ai | 3 | 7.8 | 11/18 | 15.0s |
| #33 | GLM 5.1 medium | Z.ai | 3 | 7.8 | 12/18 | 24.1s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 3 | 7.7 | 11/18 | 16.8s |