Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #76 | Kimi K2.5 none | Moonshot AI | 6.5 | 5.5 | 1/2 | 2.67s |
| #77 | GLM 5 Turbo none | Z.ai | 6.5 | 5.5 | 1/2 | 2.13s |
| #83 | Mistral Small 4 none | Mistral | 6.5 | 5.2 | 1/2 | 380ms |
| #90 | Qwen3.5-9B none | Qwen | 6.5 | 4.8 | 1/2 | 514ms |
| #91 | Mercury 2 none | Inception | 6.5 | 4.8 | 1/2 | 551ms |
| #94 | MiMo-V2-Flash none | Xiaomi | 6.5 | 4.5 | 1/2 | 857ms |
| #52 | Grok 4.1 Fast medium | X AI | 6.6 | 6.7 | 1/2 | 5.30s |
| #51 | Nemotron 3 Super medium | NVIDIA | 7.2 | 6.7 | 1/2 | 7.72s |
| #47 | Grok 4.20 medium | X AI | 7.3 | 7.0 | 1/2 | 4.42s |
| #73 | Mistral Small 4 medium | Mistral | 7.3 | 5.7 | 1/2 | 1.38s |
| #44 | GPT-5.4 Mini medium | OpenAI | 7.4 | 7.3 | 1/2 | 2.50s |
| #28 | GPT-5.2 Chat none | OpenAI | 7.5 | 7.9 | 1/2 | 5.46s |
| #11 | Gemini 3.1 Flash Lite Preview high | 7.9 | 8.4 | 1/2 | 70.1s | |
| #62 | Gemini 2.5 Flash none | 8.0 | 6.2 | 1/2 | 672ms | |
| #45 | GPT-5 Mini medium | OpenAI | 8.0 | 7.0 | 1/2 | 15.7s |