Eșecuri pe categorii AI BENCHY
Cultură generală: Răspuns greșit
Cultură generală
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #90 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 3.0 | 0/1 | 33.3s |
| #91 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.0 | 0/1 | 493ms |
| #92 | MiMo-V2-Pro none | Xiaomi | 1 | 3.0 | 0/1 | 1.63s |
| #93 | Qwen3.5-27B none | Qwen | 1 | 3.0 | 0/1 | 599ms |
| #94 | Qwen3.6 27B none | Qwen | 1 | 3.0 | 0/1 | 4.03s |
| #95 | Cobuddy medium | Baidu | 1 | 3.0 | 0/1 | 37.0s |
| #96 | Owl Alpha none | Openrouter | 1 | 3.0 | 0/1 | 2.50s |
| #97 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 692ms |
| #98 | GPT-5.4 none | OpenAI | 1 | 3.0 | 0/1 | 990ms |
| #99 | gpt-oss-120b medium | OpenAI | 1 | 3.0 | 0/1 | 26.5s |
| #100 | Kimi K2.6 none | Moonshot AI | 1 | 3.0 | 0/1 | 1.36s |
| #101 | GLM 5.1 none | Z.ai | 1 | 3.0 | 0/1 | 2.34s |
| #102 | MiMo-V2.5-Pro none | Xiaomi | 1 | 3.0 | 0/1 | 1.89s |
| #104 | DeepSeek V3.2 none | DeepSeek | 1 | 3.0 | 0/1 | 17.2s |
| #105 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | 0/1 | 649ms |