Eșecuri pe categorii AI BENCHY
Rezolvare de puzzle-uri: Răspuns greșit
Rezolvare de puzzle-uri
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Rezolvare de puzzle-uri, ca să găsești mai repede punctele slabe.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #161 | Qwen3.5-9B medium | Qwen | 1 | 3.0 | 0/3 | 32.3s |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 3.0 | 0/3 | 532ms |