Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #9 | Qwen3.6 Plus Preview medium | Qwen | 1 | 8.5 | 13/17 | 13.9s |
| #11 | Gemini 3.1 Flash Lite Preview high | 1 | 8.4 | 12/16 | 68.8s | |
| #13 | GLM 5 medium | Z.ai | 1 | 8.4 | 13/18 | 23.3s |
| #14 | Gemma 4 31B medium | 1 | 8.3 | 13/18 | 24.9s | |
| #15 | Gemini 2.5 Flash medium | 1 | 8.2 | 13/18 | 12.1s | |
| #17 | Gemini 3.1 Flash Lite Preview medium | 1 | 8.2 | 13/18 | 3.74s | |
| #20 | Qwen3.6 Plus medium | Qwen | 1 | 8.1 | 13/18 | 15.3s |
| #22 | Gemini 3.1 Flash Lite Preview low | 1 | 8.1 | 13/18 | 3.22s | |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 8.1 | 12/18 | 12.3s |
| #24 | Gemma 4 26B A4B medium | 1 | 8.0 | 13/18 | 25.0s | |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.0 | 12/18 | 46.4s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 12/18 | 6.84s |
| #32 | Qwen3.5-Flash medium | Qwen | 1 | 7.8 | 11/18 | 66.7s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.5 | 11/18 | 69.7s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.5 | 11/18 | 23.4s |