Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #70 | GPT-5.4 Nano medium | OpenAI | 2 | 7.0 | 11/21 | 12.0s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 2 | 5.7 | 7/21 | 12.4s |
| #156 | Hy3 preview none | Tencent | 4 | 4.4 | 4/21 | 12.9s |
| #124 | Kimi K2.6 none | Moonshot AI | 3 | 5.5 | 7/21 | 13.3s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 5.2 | 6/21 | 13.8s |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.4 | 9/19 | 14.7s |
| #28 | Gemini 2.5 Flash medium | 1 | 7.8 | 14/21 | 15.5s | |
| #15 | GPT-5.3-Codex medium | OpenAI | 2 | 8.4 | 15/21 | 16.2s |
| #33 | Hy3 preview medium | Tencent | 1 | 7.7 | 14/21 | 16.3s |
| #42 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 13/21 | 16.9s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 1 | 7.4 | 13/21 | 18.1s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | 12/21 | 19.2s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.2 | 12/21 | 20.1s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.0 | 14/21 | 20.4s |