Eșecuri AI BENCHY
Eșecuri Răspuns greșit
Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi.
Categorii
În categoria Specific domeniului298 În categoria Trucuri anti-AI235 În categoria Rezolvare de puzzle-uri148 În categoria Cultură generală127 În categoria Programare120 În categoria Respectarea instrucțiunilor52 În categoria Combinat51 În categoria Parsare și extragere de date32 În categoria Inteligență generală27 În categoria Apelare instrumente2
| Rang | Model | Companie | Număr de Răspuns greșit | Scor | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #1 | Gemini 3 Flash Preview medium | 1 | 9.8 | 19/20 | 16.7s | |
| #2 | Gemini 3.5 Flash high | 1 | 9.6 | 19/20 | 8.30s | |
| #32 | Step 3.5 Flash none | Stepfun | 1 | 7.8 | 9/12 | 39.0s |