Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Tests corrects ↑.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #70 | GPT-5.4 Nano medium | OpenAI | 2 | 7.0 | 11/21 | 12.0s |
| #72 | DeepSeek V3.2 medium | DeepSeek | 1 | 7.0 | 11/21 | 68.7s |
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 6.9 | 11/21 | 80.2s |
| #75 | Ring-2.6-1T medium | Inclusionai | 2 | 6.9 | 11/21 | 61.3s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.8 | 11/21 | 5.04s |
| #62 | Step 3.5 Flash medium | Stepfun | 3 | 7.2 | 11/20 | 72.5s |
| #53 | Gemini 3.1 Flash Lite high | 3 | 7.3 | 10/18 | 62.0s | |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | 12/21 | 19.2s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.5 | 12/21 | 26.1s |
| #45 | GPT-5.4 Mini medium | OpenAI | 3 | 7.5 | 12/21 | 22.3s |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 7.4 | 12/21 | 63.3s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.4 | 12/21 | 22.2s |
| #54 | GPT-5 Mini medium | OpenAI | 3 | 7.3 | 12/21 | 23.6s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 7.3 | 12/21 | 27.1s |
| #58 | Gemini 3.1 Flash Lite Preview none | 2 | 7.2 | 12/21 | 1.21s |