Catégorie AI BENCHY
Classement Culture générale
Voyez quels modèles d'IA réussissent le mieux sur Culture générale, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Temps de réponse (moy.) ↑.
Raisons d'échec
| Rang | Modèle | Entreprise | Score Culture générale | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #122 | Nemotron 3 Super none | NVIDIA | 3.0 | 5.2 | 0/1 | 8.94s |
| #67 | GPT-5 Mini medium | OpenAI | 3.0 | 6.8 | 0/1 | 9.99s |
| #6 | GPT-5.5 low | OpenAI | 3.0 | 8.9 | 0/1 | 10.1s |
| #136 | GLM 4.7 Flash medium | Z.ai | 3.0 | 4.5 | 0/1 | 11.1s |
| #26 | GPT-5.4 medium | OpenAI | 3.0 | 7.9 | 0/1 | 14.0s |
| #13 | GPT-5.3-Codex medium | OpenAI | 2.8 | 8.2 | 0/1 | 14.4s |
| #84 | DeepSeek V4 Pro none | DeepSeek | 3.0 | 6.2 | 0/1 | 15.6s |
| #104 | DeepSeek V3.2 none | DeepSeek | 3.0 | 5.7 | 0/1 | 17.2s |
| #83 | GPT-5 Nano medium | OpenAI | 3.0 | 6.2 | 0/1 | 20.1s |
| #123 | MiniMax M2.7 medium | Minimax | 3.0 | 5.1 | 0/1 | 22.8s |
| #77 | Grok 4.1 Fast medium | X AI | 3.0 | 6.5 | 0/1 | 25.5s |
| #99 | gpt-oss-120b medium | OpenAI | 3.0 | 5.7 | 0/1 | 26.5s |
| #58 | GPT-5.2 medium | OpenAI | 3.0 | 7.2 | 0/1 | 28.2s |
| #47 | GLM 5.1 medium | Z.ai | 3.0 | 7.6 | 0/1 | 29.4s |
| #35 | Claude Sonnet 4.6 medium | Anthropic | 3.0 | 7.8 | 0/1 | 30.1s |