Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #71 | MiniMax M2.5 medium | Minimax | 8.1 | 5.7 | 1/2 | 4.64s |
| #25 | Grok 4.20 Beta medium | X AI | 8.3 | 8.0 | 1/2 | 4.97s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 8.3 | 7.7 | 1/2 | 4.92s |
| #36 | GPT-5.3 Chat none | OpenAI | 8.3 | 7.7 | 1/2 | 3.29s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 8.3 | 6.4 | 1/2 | 4.63s |
| #75 | GLM 5.1 none | Z.ai | 8.3 | 5.6 | 1/2 | 1.58s |
| #84 | gpt-oss-120b none | OpenAI | 8.4 | 5.2 | 1/2 | 5.10s |
| #30 | Step 3.5 Flash medium | Stepfun | 8.5 | 7.9 | 1/2 | 4.98s |
| #57 | GPT-5 Nano medium | OpenAI | 8.5 | 6.3 | 1/2 | 11.9s |
| #12 | Gemini 3 PRO Preview medium | 9.8 | 8.4 | 2/2 | 3.26s | |
| #15 | Gemini 2.5 Flash medium | 9.8 | 8.2 | 2/2 | 2.62s | |
| #38 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.6 | 2/2 | 1.88s |
| #81 | Elephant medium | Openrouter | 9.8 | 5.2 | 2/2 | 987ms |
| #85 | Elephant none | Openrouter | 9.8 | 5.2 | 2/2 | 1.03s |
| #5 | Gemini 3 Flash Preview low | 9.9 | 8.8 | 2/2 | 7.02s |