Categoría AI BENCHY
Ranking de Seguimiento de instrucciones
Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↓.
Modelos mostrados
15
Promedio de Puntuación de Seguimiento de instrucciones
8.5
Mejor modelo
Gemini 3.5 Flash 10.0
169/169
Filtrar modelos
Ningún modelo coincide con la búsqueda y los filtros actuales.
| Rango | Modelo | Empresa | Puntuación de Seguimiento de instrucciones | Puntuación | Costo total | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|---|
| #16 | GPT-5 Mini medium | OpenAI | 10.0 | 8.5 | $0.159 | 2/2 | 11.6s |
| #17 | GPT-5.4 medium | OpenAI | 10.0 | 8.5 | $1.210 | 2/2 | 3.11s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 10.0 | 8.5 | $0.175 | 2/2 | 7.26s |
| #19 | GPT-5.2 Chat none | OpenAI | 9.8 | 8.5 | $0.393 | 2/2 | 5.51s |
| #20 | Step 3.7 Flash medium | Stepfun | 9.8 | 8.5 | $0.376 | 2/2 | 1.83s |
| #21 | GLM 5 Turbo medium | Z.ai | 10.0 | 8.4 | $0.323 | 2/2 | 5.38s |
| #22 | GPT-5.2 medium | OpenAI | 9.9 | 8.4 | $0.548 | 2/2 | 3.12s |
| #23 | DeepSeek V4 Flash high | DeepSeek | 10.0 | 8.3 | $0.027 | 2/2 | 15.4s |
| #24 | Gemini 2.5 Flash medium | 9.8 | 8.2 | $0.379 | 2/2 | 2.62s | |
| #25 | Qwen3.7 Plus medium | Qwen | 10.0 | 8.2 | $0.177 | 2/2 | 16.1s |
| #26 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 9.8 | 8.1 | $0.158 | 2/2 | 6.35s |
| #27 | GPT-5.4 Mini medium | OpenAI | 9.8 | 8.0 | $0.526 | 2/2 | 2.13s |
| #28 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 10.0 | 8.0 | $0.310 | 2/2 | 31.9s |
| #29 | Qwen3.5-27B medium | Qwen | 10.0 | 7.9 | $0.536 | 2/2 | 19.7s |
| #30 | Qwen3.6 Plus medium | Qwen | 10.0 | 7.8 | $0.294 | 2/2 | 7.54s |