Eșecuri pe categorii AI BENCHY
Cultură generală: Fără răspuns
Cultură generală
Fără răspuns
Vezi ce modele AI au cele mai mari șanse să întâmpine Fără răspuns la Cultură generală, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↑.
Motive de eșec
| Rang | Model | Companie | Număr de Fără răspuns | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 3.0 | 0/1 | 6.14s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 3.0 | 0/1 | 114.0s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.0 | 0/1 | 124.8s |
| #67 | MiniMax M3 medium | Minimax | 1 | 3.0 | 0/1 | 100.8s |
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 3.0 | 0/1 | 3.41s |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 3.0 | 0/1 | 149.3s |