Catégorie AI BENCHY
Classement Résolution d'énigmes
Voyez quels modèles d'IA réussissent le mieux sur Résolution d'énigmes, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.
| Rang | Modèle | Entreprise | Score Résolution d'énigmes | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #133 | DeepSeek V3.2 none | DeepSeek | 7.6 | 5.2 | 2/3 | 6.91s |
| #7 | Gemini 3.5 Flash medium | 7.7 | 9.0 | 2/3 | 2.38s | |
| #12 | Gemini 3.1 Flash Lite Preview high | 7.7 | 8.6 | 2/3 | 46.7s | |
| #24 | GPT-5.2 Chat none | OpenAI | 7.7 | 7.9 | 2/3 | 4.10s |
| #28 | Gemini 2.5 Flash medium | 7.7 | 7.8 | 2/3 | 3.18s | |
| #33 | Hy3 preview medium | Tencent | 7.7 | 7.7 | 2/3 | 11.1s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 7.7 | 7.5 | 2/3 | 5.30s | |
| #47 | Grok Build 0.1 medium | X AI | 7.7 | 7.4 | 2/3 | 18.3s |
| #48 | Gemini 3 Flash Preview none | 7.7 | 7.4 | 2/3 | 1.05s | |
| #59 | GLM 5V Turbo medium | Z.ai | 7.7 | 7.2 | 2/3 | 10.2s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 7.7 | 7.2 | 2/3 | 3.87s |
| #65 | Grok 4.20 medium | X AI | 7.7 | 7.1 | 2/3 | 6.22s |
| #68 | Claude Opus 4.8 none | Anthropic | 7.7 | 7.0 | 2/3 | 2.74s |
| #69 | Claude Opus 4.6 medium | Anthropic | 7.7 | 7.0 | 2/3 | 4.71s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 7.7 | 6.8 | 2/3 | 2.53s |