Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↓.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #13 | Grok 4.20 Beta medium | X AI | 1 | 8.5 | 14/18 | 9.75s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #132 | Mistral Small 4 medium | Mistral | 2 | 5.3 | 5/21 | 9.40s |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 4.9 | 5/21 | 8.62s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |
| #159 | Ling-2.6-1T none | Inclusionai | 2 | 4.3 | 3/21 | 7.72s |
| #24 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 14/21 | 7.13s |
| #63 | GPT-5.3 Chat none | OpenAI | 2 | 7.2 | 12/21 | 6.34s |
| #102 | Gemma 4 26B A4B none | 2 | 6.0 | 8/21 | 5.91s | |
| #141 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | 5/21 | 5.30s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.8 | 11/21 | 5.04s |
| #7 | Gemini 3.5 Flash medium | 1 | 9.0 | 18/21 | 4.94s | |
| #116 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.70s |