Échecs par catégorie AI BENCHY
Résolution d'énigmes : N'a pas suivi les instructions
Résolution d'énigmes
N'a pas suivi les instructions
Voyez quels modèles d'IA ont le plus de chances de rencontrer N'a pas suivi les instructions sur Résolution d'énigmes, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #30 | Qwen3.5-27B medium | Qwen | 1 | 8.2 | 2/3 | 59.6s |
| #53 | Gemini 3.1 Flash Lite high | 2 | 5.7 | 1/3 | 50.8s | |
| #12 | Gemini 3.1 Flash Lite Preview high | 1 | 7.7 | 2/3 | 46.7s | |
| #76 | Kimi K2.5 medium | Moonshot AI | 1 | 5.3 | 1/3 | 43.2s |
| #72 | DeepSeek V3.2 medium | DeepSeek | 1 | 7.0 | 1/3 | 37.7s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 7.7 | 2/3 | 31.5s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 1 | 8.2 | 2/3 | 26.1s |
| #60 | Kimi K2.6 medium | Moonshot AI | 1 | 6.0 | 1/3 | 25.1s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 5.9 | 1/3 | 24.9s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 3.1 | 0/3 | 23.7s |
| #38 | Grok 4.3 medium | X AI | 1 | 5.9 | 1/3 | 22.5s |
| #99 | gpt-oss-120b medium | OpenAI | 1 | 5.3 | 1/3 | 21.7s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 5.9 | 1/3 | 20.7s |
| #94 | GPT-5 Nano medium | OpenAI | 1 | 5.3 | 1/3 | 20.6s |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 5.6 | 1/3 | 15.2s |