Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #141 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | 5/21 | 5.30s |
| #148 | GPT-5.4 Nano none | OpenAI | 2 | 4.7 | 4/21 | 1.48s |
| #152 | MiMo-V2-Flash none | Xiaomi | 2 | 4.6 | 4/21 | 2.76s |
| #153 | Qwen3.6 35B A3B none | Qwen | 2 | 4.6 | 4/21 | 3.73s |
| #154 | Qwen3.5-9B none | Qwen | 2 | 4.6 | 4/21 | 1.89s |
| #158 | GLM 4.7 Flash medium | Z.ai | 2 | 4.4 | 4/21 | 35.1s |
| #159 | Ling-2.6-1T none | Inclusionai | 2 | 4.3 | 3/21 | 7.72s |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 4.1 | 2/19 | 728ms |
| #7 | Gemini 3.5 Flash medium | 1 | 9.0 | 18/21 | 4.94s | |
| #12 | Gemini 3.1 Flash Lite Preview high | 1 | 8.6 | 13/16 | 68.1s | |
| #13 | Grok 4.20 Beta medium | X AI | 1 | 8.5 | 14/18 | 9.75s |
| #17 | GLM 5 medium | Z.ai | 1 | 8.3 | 15/21 | 33.5s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.0 | 14/21 | 20.4s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.0 | 14/21 | 23.0s |
| #24 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 14/21 | 7.13s |