Eșecuri pe categorii AI BENCHY
Inteligență generală: Răspuns greșit
Inteligență generală
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Inteligență generală, ca să găsești mai repede punctele slabe. Sortează după: Număr de eșecuri ↑.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 4.0 | 0/1 | 6.85s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 6.1 | 0/1 | 10.1s |
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 1 | 4.9 | 0/1 | 25.3s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 4.8 | 0/1 | 9.88s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 4.4 | 0/1 | 18.4s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.4 | 0/1 | 7.00s |
| #61 | Gemini 3.1 Flash Lite low | 1 | 4.0 | 0/1 | 1.37s | |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 5.5 | 0/1 | 4.17s |
| #74 | Qwen3.6 Max Preview none | Qwen | 1 | 4.3 | 0/1 | 1.62s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 5.4 | 0/1 | 3.61s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 4.0 | 0/1 | 992ms | |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 4.4 | 0/1 | 2.26s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 4.3 | 0/1 | 15.6s |
| #97 | Gemini 2.5 Flash none | 1 | 5.0 | 0/1 | 615ms | |
| #100 | Grok Build 0.1 none | X AI | 1 | 4.3 | 0/1 | 12.5s |