Eșecuri pe categorii AI BENCHY
Cultură generală: Răspuns greșit
Cultură generală
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #106 | MiniMax M2.5 medium | Minimax | 1 | 3.0 | 0/1 | 80.8s |
| #107 | Mistral Small 4 medium | Mistral | 1 | 3.0 | 0/1 | 5.92s |
| #110 | Qwen3.5-122B-A10B none | Qwen | 1 | 3.0 | 0/1 | 295ms |
| #112 | Kimi K2.5 none | Moonshot AI | 1 | 3.0 | 0/1 | 3.90s |
| #114 | GLM 5 Turbo none | Z.ai | 1 | 3.0 | 0/1 | 2.37s |
| #118 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 1.06s |
| #119 | gpt-oss-120b none | OpenAI | 1 | 3.0 | 0/1 | 47.3s |
| #120 | DeepSeek V4 Flash none | DeepSeek | 1 | 3.0 | 0/1 | 3.07s |
| #121 | Qwen3 Coder Next none | Qwen | 1 | 3.0 | 0/1 | 601ms |
| #122 | Nemotron 3 Super none | NVIDIA | 1 | 3.0 | 0/1 | 8.94s |
| #123 | MiniMax M2.7 medium | Minimax | 1 | 3.0 | 0/1 | 22.8s |
| #124 | Mistral Small 4 none | Mistral | 1 | 3.0 | 0/1 | 397ms |
| #125 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 1.33s |
| #126 | Qwen3.6 35B A3B none | Qwen | 1 | 3.0 | 0/1 | 414ms |
| #127 | GPT-4o-mini none | OpenAI | 1 | 3.0 | 0/1 | 794ms |