Categoría AI BENCHY
Ranking de Seguimiento de instrucciones
Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.
Modelos mostrados
15
Promedio de Puntuación de Seguimiento de instrucciones
8.5
Mejor modelo
Gemini 3 Flash Preview 10.0| Rango | Modelo | Empresa | Puntuación de Seguimiento de instrucciones | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 2/2 | 932ms | |
| #89 | Hy3 preview low | Tencent | 10.0 | 6.4 | 2/2 | 16.0s |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 2/2 | 859ms | |
| #92 | Laguna M.1 medium | Poolside | 10.0 | 6.4 | 2/2 | 4.30s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 2/2 | 1.67s |
| #97 | Gemini 2.5 Flash none | 10.0 | 6.2 | 2/2 | 590ms | |
| #98 | GLM 5 none | Z.ai | 10.0 | 6.1 | 2/2 | 1.48s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 10.0 | 6.0 | 2/2 | 41.2s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 10.0 | 6.0 | 2/2 | 1.46s |
| #107 | Laguna Xs.2 medium | Poolside | 10.0 | 5.8 | 2/2 | 1.68s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 5.8 | 2/2 | 1.06s |
| #133 | DeepSeek V3.2 none | DeepSeek | 10.0 | 5.2 | 2/2 | 1.52s |
| #3 | Gemini 3.5 Flash low | 9.9 | 9.4 | 2/2 | 1.86s | |
| #6 | GPT-5.5 low | OpenAI | 9.9 | 9.0 | 2/2 | 3.74s |
| #7 | Gemini 3.5 Flash medium | 9.9 | 9.0 | 2/2 | 2.70s |