Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #95 | Grok 4.1 Fast none | X AI | 3.0 | 4.5 | 0/2 | 923ms |
| #80 | MiniMax M2.7 medium | Minimax | 3.7 | 5.3 | 0/2 | 12.6s |
| #78 | Trinity Large Preview none | Arcee AI | 4.1 | 5.3 | 0/2 | 1.09s |
| #60 | Gemma 4 26B A4B none | 4.4 | 6.2 | 0/2 | 1.08s | |
| #70 | Qwen3.5-122B-A10B none | Qwen | 4.5 | 5.7 | 0/2 | 585ms |
| #67 | Qwen3.5-27B none | Qwen | 4.8 | 5.9 | 0/2 | 815ms |
| #79 | Grok 4.20 Beta none | X AI | 4.8 | 5.3 | 0/2 | 687ms |
| #82 | Grok 4.20 none | X AI | 4.8 | 5.2 | 0/2 | 455ms |
| #87 | Qwen3 Coder Next none | Qwen | 4.8 | 5.1 | 0/2 | 7.71s |
| #89 | GPT-4o-mini none | OpenAI | 4.8 | 4.9 | 0/2 | 1.27s |
| #92 | Qwen3 Coder Next medium | Qwen | 4.8 | 4.7 | 0/2 | 7.34s |
| #98 | LFM2-24B-A2B none | Liquid | 4.8 | 4.1 | 0/2 | 1.09s |
| #88 | Nemotron 3 Super none | NVIDIA | 4.9 | 5.1 | 0/2 | 1.50s |
| #96 | GPT-5.4 Nano none | OpenAI | 5.0 | 4.5 | 0/2 | 787ms |
| #93 | GLM 4.7 Flash medium | Z.ai | 6.2 | 4.6 | 1/2 | 2.97s |