Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↑.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #115 | Qwen3.5-27B none | Qwen | 2 | 5.7 | 7/21 | 1.68s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 2 | 5.7 | 7/21 | 4.39s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 2 | 5.7 | 7/21 | 12.4s |
| #111 | Owl Alpha medium | Openrouter | 2 | 5.7 | 8/21 | 11.9s |
| #109 | GLM 5V Turbo none | Z.ai | 2 | 5.8 | 8/21 | 2.99s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 5.8 | 6/18 | 1.19s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 6.0 | 8/21 | 2.27s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 6.0 | 8/21 | 65.2s |
| #102 | Gemma 4 26B A4B none | 2 | 6.0 | 8/21 | 5.91s | |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 6.0 | 8/21 | 2.44s |
| #100 | Grok Build 0.1 none | X AI | 2 | 6.0 | 7/19 | 28.7s |
| #99 | gpt-oss-120b medium | OpenAI | 3 | 6.1 | 9/21 | 22.3s |
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |