Eșecuri pe categorii AI BENCHY
Cultură generală: Răspuns greșit
Cultură generală
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #128 | MiMo-V2.5 none | Xiaomi | 1 | 3.0 | 0/1 | 3.89s |
| #129 | Qwen3 Coder Next medium | Qwen | 1 | 3.0 | 0/1 | 399ms |
| #130 | Trinity Large Preview none | Arcee AI | 1 | 3.0 | 0/1 | 777ms |
| #131 | Mercury 2 none | Inception | 1 | 3.0 | 0/1 | 548ms |
| #132 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 2.32s |
| #133 | HY3 Preview none | Tencent | 1 | 3.0 | 0/1 | 2.71s |
| #135 | GPT-5.4 Nano none | OpenAI | 1 | 3.0 | 0/1 | 773ms |
| #136 | GLM 4.7 Flash medium | Z.ai | 1 | 3.0 | 0/1 | 11.1s |
| #137 | MiMo-V2-Flash none | Xiaomi | 1 | 3.0 | 0/1 | 1.82s |
| #139 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/1 | 731ms |
| #140 | Qwen3.5-9B medium | Qwen | 1 | 3.0 | 0/1 | 177.0s |
| #142 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | 0/1 | 306ms |