Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir.
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #17 | Gemini 3.1 Flash Lite Preview medium | 1 | 8.2 | 13/18 | 3.74s | |
| #20 | Qwen3.6 Plus medium | Qwen | 1 | 8.1 | 13/18 | 15.3s |
| #22 | Gemini 3.1 Flash Lite Preview low | 1 | 8.1 | 13/18 | 3.22s | |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 8.1 | 12/18 | 12.3s |
| #24 | Gemma 4 26B A4B medium | 1 | 8.0 | 13/18 | 25.0s | |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.0 | 12/18 | 46.4s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 12/18 | 6.84s |
| #32 | Qwen3.5-Flash medium | Qwen | 1 | 7.8 | 11/18 | 66.7s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.5 | 11/18 | 69.7s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.5 | 11/18 | 23.4s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.4 | 11/18 | 4.98s |
| #48 | Gemma 4 31B none | 1 | 6.9 | 10/18 | 4.02s | |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 6.2 | 8/18 | 3.25s |
| #62 | Gemini 2.5 Flash none | 1 | 6.2 | 7/18 | 903ms | |
| #66 | GPT-5.4 none | OpenAI | 1 | 5.9 | 7/18 | 1.51s |