Eșecuri AI BENCHY
Eșecuri Răspuns greșit
Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi.
Categorii
În categoria Specific domeniului182 În categoria Trucuri anti-AI165 În categoria Rezolvare de puzzle-uri85 În categoria Respectarea instrucțiunilor44 În categoria Combinat37 În categoria Programare28 În categoria Parsare și extragere de date19 În categoria Inteligență generală10 În categoria Apelare instrumente2
| Rang | Model | Companie | Număr de Răspuns greșit | Scor | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #43 | Qwen3.5-35B-A3B medium | Qwen | 2 | 7.4 | 10/18 | 44.5s |
| #2 | Gemini 3.1 Pro Preview medium | 1 | 9.6 | 17/18 | 16.0s | |
| #3 | Claude Opus 4.7 medium | Anthropic | 1 | 9.2 | 16/18 | 3.53s |
| #10 | Qwen3.5-27B medium | Qwen | 1 | 8.4 | 13/18 | 53.0s |
| #14 | Gemma 4 31B medium | 1 | 8.3 | 13/18 | 24.9s | |
| #32 | Qwen3.5-Flash medium | Qwen | 1 | 7.8 | 11/18 | 66.7s |
| #97 | Qwen3.5-9B medium | Qwen | 1 | 4.4 | 3/18 | 73.6s |