Fallos por categoría de AI BENCHY
Seguimiento de instrucciones: Respuesta incorrecta
Seguimiento de instrucciones
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #130 | MiniMax M2.7 medium | Minimax | 1 | 3.8 | 0/2 | 12.8s |
| #111 | Owl Alpha medium | Openrouter | 1 | 6.5 | 1/2 | 10.2s |
| #108 | Qwen3.5-Flash none | Qwen | 1 | 6.3 | 1/2 | 8.81s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 1 | 6.3 | 1/2 | 8.23s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 6.3 | 1/2 | 7.78s |
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 6.3 | 1/2 | 7.49s |
| #55 | GLM 5.1 medium | Z.ai | 1 | 6.4 | 1/2 | 7.47s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 6.4 | 1/2 | 5.36s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 6.5 | 1/2 | 4.26s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 6.2 | 1/2 | 2.97s |
| #85 | Gemma 4 31B none | 1 | 6.5 | 1/2 | 2.84s | |
| #116 | Hunter Alpha none | OpenRouter | 1 | 6.4 | 1/2 | 2.82s |
| #135 | Kimi K2.5 none | Moonshot AI | 1 | 6.5 | 1/2 | 2.67s |
| #121 | Owl Alpha none | Openrouter | 1 | 6.4 | 1/2 | 2.63s |
| #120 | Mimo V2 PRO none | Xiaomi | 1 | 6.5 | 1/2 | 2.51s |