Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #26 | Qwen3.6 Plus medium | Qwen | 1 | 7.9 | 14/21 | 30.7s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #17 | GLM 5 medium | Z.ai | 1 | 8.3 | 15/21 | 33.5s |
| #158 | GLM 4.7 Flash medium | Z.ai | 2 | 4.4 | 4/21 | 35.1s |
| #130 | MiniMax M2.7 medium | Minimax | 5 | 5.3 | 5/21 | 38.2s |
| #83 | Step 3.5 Flash none | Stepfun | 1 | 6.6 | 6/12 | 39.0s |
| #119 | Cobuddy medium | Baidu | 3 | 5.6 | 7/21 | 39.9s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 2 | 7.7 | 13/21 | 45.8s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.2 | 14/21 | 47.1s |
| #38 | Grok 4.3 medium | X AI | 2 | 7.6 | 13/21 | 47.5s |
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 6.8 | 10/21 | 59.7s |
| #75 | Ring-2.6-1T medium | Inclusionai | 2 | 6.9 | 11/21 | 61.3s |