Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Temps de réponse (moy.) ↓.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #56 | MiMo-V2.5 medium | Xiaomi | 9.9 | 7.3 | 2/2 | 1.80s |
| #107 | Laguna Xs.2 medium | Poolside | 10.0 | 5.8 | 2/2 | 1.68s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 2/2 | 1.67s |
| #124 | Kimi K2.6 none | Moonshot AI | 6.5 | 5.5 | 1/2 | 1.64s |
| #57 | Step 3.7 Flash low | Stepfun | 9.8 | 7.3 | 2/2 | 1.58s |
| #48 | Gemini 3 Flash Preview none | 6.4 | 7.4 | 1/2 | 1.58s | |
| #11 | Claude Opus 4.7 medium | Anthropic | 10.0 | 8.7 | 2/2 | 1.57s |
| #61 | Gemini 3.1 Flash Lite low | 10.0 | 7.2 | 2/2 | 1.52s | |
| #133 | DeepSeek V3.2 none | DeepSeek | 10.0 | 5.2 | 2/2 | 1.52s |
| #71 | Step 3.7 Flash high | Stepfun | 9.8 | 7.0 | 2/2 | 1.52s |
| #50 | Gemini 3.1 Flash Lite Preview low | 10.0 | 7.4 | 2/2 | 1.49s | |
| #98 | GLM 5 none | Z.ai | 10.0 | 6.1 | 2/2 | 1.48s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 10.0 | 6.0 | 2/2 | 1.46s |
| #8 | Claude Opus 4.7 none | Anthropic | 10.0 | 8.9 | 2/2 | 1.46s |
| #74 | Qwen3.6 Max Preview none | Qwen | 9.8 | 6.9 | 2/2 | 1.40s |