Échecs par catégorie AI BENCHY
Résolution d'énigmes : Mauvaise réponse
Résolution d'énigmes
Mauvaise réponse
Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Mauvaise réponse | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #79 | Hunter Alpha medium | OpenRouter | 1 | 6.1 | 1/3 | 5.35s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 5.9 | 1/3 | 2.38s |
| #81 | Mercury 2 medium | Inception | 1 | 5.4 | 1/3 | 949ms |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 6.7 | 1/3 | 5.19s |
| #85 | Gemma 4 31B none | 1 | 6.5 | 1/3 | 4.23s | |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 5.3 | 1/3 | 7.40s |
| #88 | Qwen3.7 Plus none | Qwen | 1 | 7.7 | 2/3 | 1.71s |
| #89 | Hy3 preview low | Tencent | 1 | 5.3 | 1/3 | 7.51s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.3 | 1/3 | 720ms | |
| #91 | GPT-5.5 none | OpenAI | 1 | 7.7 | 2/3 | 1.29s |
| #92 | Laguna M.1 medium | Poolside | 1 | 5.3 | 1/3 | 10.2s |
| #94 | GPT-5 Nano medium | OpenAI | 1 | 5.3 | 1/3 | 20.6s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 7.7 | 2/3 | 2.71s |
| #97 | Gemini 2.5 Flash none | 1 | 7.7 | 2/3 | 604ms | |
| #98 | GLM 5 none | Z.ai | 1 | 7.7 | 2/3 | 1.91s |