Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #136 | Elephant Alpha medium | Openrouter | 9.8 | 5.1 | 2/2 | 987ms |
| #137 | Elephant Alpha none | Openrouter | 9.8 | 5.1 | 2/2 | 1.03s |
| #138 | Ling-2.6-flash none | Inclusionai | 9.8 | 5.0 | 2/2 | 5.52s |
| #3 | Gemini 3.5 Flash low | 9.9 | 9.4 | 2/2 | 1.86s | |
| #6 | GPT-5.5 low | OpenAI | 9.9 | 9.0 | 2/2 | 3.74s |
| #7 | Gemini 3.5 Flash medium | 9.9 | 9.0 | 2/2 | 2.70s | |
| #16 | Gemini 3 Flash Preview low | 9.9 | 8.4 | 2/2 | 7.02s | |
| #42 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 9.9 | 7.5 | 2/2 | 2.77s |
| #44 | Gemini 3.1 Flash Lite medium | 9.9 | 7.5 | 2/2 | 2.59s | |
| #51 | Mimo V2 PRO medium | Xiaomi | 9.9 | 7.4 | 2/2 | 3.36s |
| #56 | MiMo-V2.5 medium | Xiaomi | 9.9 | 7.3 | 2/2 | 1.80s |
| #59 | GLM 5V Turbo medium | Z.ai | 9.9 | 7.2 | 2/2 | 3.74s |
| #68 | Claude Opus 4.8 none | Anthropic | 9.9 | 7.0 | 2/2 | 1.37s |
| #79 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |