Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #124 | Kimi K2.6 none | Moonshot AI | 3 | 5.5 | 7/21 | 13.3s |
| #129 | MiniMax M2.5 medium | Minimax | 3 | 5.3 | 5/21 | 65.4s |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #144 | GPT-5.4 Mini none | OpenAI | 3 | 4.9 | 5/21 | 1.13s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |
| #151 | Trinity Large Preview none | Arcee AI | 3 | 4.6 | 4/21 | 2.98s |
| #157 | Grok 4.1 Fast none | X AI | 3 | 4.4 | 3/19 | 1.62s |
| #15 | GPT-5.3-Codex medium | OpenAI | 2 | 8.4 | 15/21 | 16.2s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.2 | 14/21 | 47.1s |
| #21 | GPT-5.4 medium | OpenAI | 2 | 8.0 | 14/21 | 22.3s |
| #30 | Qwen3.5-27B medium | Qwen | 2 | 7.8 | 13/21 | 68.4s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 2 | 7.7 | 13/21 | 45.8s |
| #38 | Grok 4.3 medium | X AI | 2 | 7.6 | 13/21 | 47.5s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.5 | 12/21 | 26.1s |