Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↑.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #130 | MiniMax M2.7 medium | Minimax | 3.8 | 5.3 | 0/2 | 12.8s |
| #151 | Trinity Large Preview none | Arcee AI | 3.5 | 4.6 | 0/2 | 822ms |
| #157 | Grok 4.1 Fast none | X AI | 3.0 | 4.4 | 0/2 | 685ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 4.8 | 4.1 | 0/2 | 541ms |
| #163 | Granite 4.1 8B none | IBM Granite | 3.6 | 4.0 | 0/2 | 344ms |
| #32 | Gemini 3.5 Flash minimal | 6.4 | 7.7 | 1/2 | 893ms | |
| #48 | Gemini 3 Flash Preview none | 6.4 | 7.4 | 1/2 | 1.58s | |
| #53 | Gemini 3.1 Flash Lite high | 7.3 | 7.3 | 1/2 | 23.3s | |
| #55 | GLM 5.1 medium | Z.ai | 6.4 | 7.3 | 1/2 | 7.47s |
| #62 | Step 3.5 Flash medium | Stepfun | 8.3 | 7.2 | 1/2 | 4.78s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 6.5 | 6.8 | 1/2 | 1.96s |
| #80 | Mimo V2 Omni medium | Xiaomi | 8.3 | 6.7 | 1/2 | 4.99s |
| #85 | Gemma 4 31B none | 6.5 | 6.5 | 1/2 | 2.84s | |
| #86 | Grok 4.1 Fast medium | X AI | 6.5 | 6.5 | 1/2 | 4.63s |
| #88 | Qwen3.7 Plus none | Qwen | 6.3 | 6.4 | 1/2 | 929ms |