Échecs AI BENCHY
Échecs N'a pas suivi les instructions
Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.
Catégories
| Rang | Modèle | Entreprise | Nombre de N'a pas suivi les instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #88 | Qwen3.7 Plus none | Qwen | 1 | 6.4 | 10/21 | 2.85s |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 5.5 | 6/21 | 2.86s |
| #151 | Trinity Large Preview none | Arcee AI | 3 | 4.6 | 4/21 | 2.98s |
| #109 | GLM 5V Turbo none | Z.ai | 2 | 5.8 | 8/21 | 2.99s |
| #44 | Gemini 3.1 Flash Lite medium | 1 | 7.5 | 13/21 | 3.23s | |
| #117 | Qwen3.5-35B-A3B none | Qwen | 2 | 5.6 | 7/21 | 3.37s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 2 | 5.3 | 6/21 | 3.41s |
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 7.0 | 12/21 | 3.47s |
| #118 | Qwen3.6 27B none | Qwen | 2 | 5.6 | 7/21 | 3.72s |
| #153 | Qwen3.6 35B A3B none | Qwen | 2 | 4.6 | 4/21 | 3.73s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.5 | 13/21 | 3.96s | |
| #85 | Gemma 4 31B none | 1 | 6.5 | 10/21 | 4.05s | |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 2 | 5.7 | 7/21 | 4.39s |
| #116 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.70s |
| #7 | Gemini 3.5 Flash medium | 1 | 9.0 | 18/21 | 4.94s |