Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↑.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #120 | Mimo V2 PRO none | Xiaomi | 6.5 | 5.6 | 1/2 | 2.51s |
| #121 | Owl Alpha none | Openrouter | 6.4 | 5.5 | 1/2 | 2.63s |
| #122 | GLM 4.7 Flash none | Z.ai | 6.5 | 5.5 | 1/2 | 888ms |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 6.4 | 5.5 | 1/2 | 1.03s |
| #124 | Kimi K2.6 none | Moonshot AI | 6.5 | 5.5 | 1/2 | 1.64s |
| #125 | GPT-5.4 none | OpenAI | 6.5 | 5.5 | 1/2 | 1.07s |
| #127 | Grok 4.20 none | X AI | 6.3 | 5.4 | 1/2 | 445ms |
| #128 | Qwen3.6 Flash none | Qwen | 6.3 | 5.4 | 1/2 | 1.10s |
| #129 | MiniMax M2.5 medium | Minimax | 7.5 | 5.3 | 1/2 | 621ms |
| #131 | Qwen3.5-122B-A10B none | Qwen | 6.3 | 5.3 | 1/2 | 513ms |
| #132 | Mistral Small 4 medium | Mistral | 7.3 | 5.3 | 1/2 | 1.38s |
| #134 | GLM 5 Turbo none | Z.ai | 6.5 | 5.2 | 1/2 | 2.13s |
| #135 | Kimi K2.5 none | Moonshot AI | 6.5 | 5.2 | 1/2 | 2.67s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 6.5 | 5.0 | 1/2 | 17.5s |
| #140 | Qwen3 Coder Next none | Qwen | 6.3 | 4.9 | 1/2 | 7.78s |