Categorie AI BENCHY
Clasament Cultură generală
Vezi ce modele AI se descurcă cel mai bine la Cultură generală, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Timp de răspuns (mediu) ↑.
Motive de eșec
| Rang | Model | Companie | Scor Cultură generală | Scor | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #126 | Qwen3.6 35B A3B none | Qwen | 3.0 | 5.0 | 0/1 | 414ms |
| #91 | Qwen3.5-35B-A3B none | Qwen | 3.0 | 5.9 | 0/1 | 493ms |
| #131 | Mercury 2 none | Inception | 3.0 | 4.7 | 0/1 | 548ms |
| #89 | Qwen3.5-Flash none | Qwen | 3.0 | 6.0 | 0/1 | 588ms |
| #93 | Qwen3.5-27B none | Qwen | 3.0 | 5.9 | 0/1 | 599ms |
| #121 | Qwen3 Coder Next none | Qwen | 3.0 | 5.2 | 0/1 | 601ms |
| #105 | Qwen3.6 Flash none | Qwen | 3.0 | 5.6 | 0/1 | 649ms |
| #97 | GLM 4.7 Flash none | Z.ai | 3.0 | 5.8 | 0/1 | 692ms |
| #68 | Gemini 3.1 Flash Lite minimal | 3.0 | 6.8 | 0/1 | 724ms | |
| #139 | Grok 4.1 Fast none | X AI | 3.0 | 4.4 | 0/1 | 731ms |
| #73 | Gemini 3.1 Flash Lite none | 3.0 | 6.7 | 0/1 | 733ms | |
| #135 | GPT-5.4 Nano none | OpenAI | 3.0 | 4.5 | 0/1 | 773ms |
| #130 | Trinity Large Preview none | Arcee AI | 3.0 | 4.8 | 0/1 | 777ms |
| #82 | Gemma 4 26B A4B none | 3.0 | 6.3 | 0/1 | 778ms | |
| #127 | GPT-4o-mini none | OpenAI | 3.0 | 4.9 | 0/1 | 794ms |