Eșecuri pe categorii AI BENCHY
Cultură generală: Răspuns greșit
Cultură generală
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.
Motive de eșec
133/133
Filtrează modelele
Niciun model nu corespunde căutării și filtrelor curente.
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Cost total | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|---|
| #144 | Ring-2.6-1T none | Inclusionai | 1 | 3.0 | $0.026 | 0/1 | 133.6s |
| #145 | GPT-5.4 Nano none | OpenAI | 1 | 3.0 | $0.011 | 0/1 | 773ms |
| #146 | MiniMax M2.5 medium | Minimax | 1 | 3.0 | $0.303 | 0/1 | 80.8s |
| #148 | Qwen3 Coder Next medium | Qwen | 1 | 3.0 | $0.008 | 0/1 | 399ms |
| #151 | Mercury 2 none | Inception | 1 | 3.0 | $0.011 | 0/1 | 548ms |
| #157 | GLM 4.7 Flash medium | Z.ai | 1 | 3.0 | $0.054 | 0/1 | 11.1s |
| #158 | Hy3 preview none | Tencent | 1 | 3.0 | $0.003 | 0/1 | 2.71s |
| #159 | MiMo-V2-Flash none | Xiaomi | 1 | 3.0 | $0.025 | 0/1 | 1.82s |
| #160 | Grok Build 0.1 none | X AI | 1 | 3.0 | $0.547 | 0/1 | 36.1s |
| #161 | Grok 4.1 Fast none | X AI | 1 | 3.0 | $0.008 | 0/1 | 731ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | $0.003 | 0/1 | 306ms |
| #164 | gpt-oss-120b none | OpenAI | 1 | 3.0 | $0.010 | 0/1 | 47.3s |
| #168 | Step 3.5 Flash none | Stepfun | 1 | 3.0 | $0.020 | 0/1 | 114.1s |