Catégorie AI BENCHY
Classement Suivi des instructions
Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Temps de réponse (moy.) ↑.
| Rang | Modèle | Entreprise | Score Suivi des instructions | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #126 | gpt-oss-120b none | OpenAI | 9.8 | 5.4 | 2/2 | 5.06s |
| #159 | Ling-2.6-1T none | Inclusionai | 6.4 | 4.3 | 1/2 | 5.36s |
| #23 | GLM 5 Turbo medium | Z.ai | 10.0 | 8.0 | 2/2 | 5.38s |
| #24 | GPT-5.2 Chat none | OpenAI | 9.8 | 7.9 | 2/2 | 5.51s |
| #138 | Ling-2.6-flash none | Inclusionai | 9.8 | 5.0 | 2/2 | 5.52s |
| #161 | Qwen3.5-9B medium | Qwen | 6.5 | 4.2 | 1/2 | 5.75s |
| #39 | Qwen3.6 Flash medium | Qwen | 10.0 | 7.5 | 2/2 | 6.05s |
| #67 | MiniMax M3 medium | Minimax | 9.8 | 7.1 | 2/2 | 6.14s |
| #33 | Hy3 preview medium | Tencent | 10.0 | 7.7 | 2/2 | 6.16s |
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 9.8 | 7.5 | 2/2 | 6.35s |
| #105 | Nemotron 3 Super medium | NVIDIA | 7.3 | 5.8 | 1/2 | 6.97s |
| #16 | Gemini 3 Flash Preview low | 9.9 | 8.4 | 2/2 | 7.02s | |
| #17 | GLM 5 medium | Z.ai | 10.0 | 8.3 | 2/2 | 7.25s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 10.0 | 8.2 | 2/2 | 7.26s |
| #100 | Grok Build 0.1 none | X AI | 9.8 | 6.0 | 2/2 | 7.36s |