Fallos por categoría de AI BENCHY
Seguimiento de instrucciones: Respuesta incorrecta
Seguimiento de instrucciones
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #80 | MiniMax M2.7 medium | Minimax | 1 | 3.7 | 0/2 | 12.6s |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 6.3 | 1/2 | 8.81s |
| #87 | Qwen3 Coder Next none | Qwen | 2 | 4.8 | 0/2 | 7.71s |
| #33 | GLM 5.1 medium | Z.ai | 1 | 6.4 | 1/2 | 7.47s |
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 4.8 | 0/2 | 7.34s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 7.5 | 1/2 | 5.46s |
| #55 | MiMo-V2-Omni none | Xiaomi | 1 | 6.5 | 1/2 | 4.18s |
| #36 | GPT-5.3 Chat none | OpenAI | 1 | 8.3 | 1/2 | 3.29s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 6.2 | 1/2 | 2.97s |
| #48 | Gemma 4 31B none | 1 | 6.5 | 1/2 | 2.84s | |
| #72 | Hunter Alpha none | OpenRouter | 1 | 6.4 | 1/2 | 2.82s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 6.5 | 1/2 | 2.67s |
| #65 | MiMo-V2-Pro none | Xiaomi | 1 | 6.5 | 1/2 | 2.51s |
| #77 | GLM 5 Turbo none | Z.ai | 1 | 6.5 | 1/2 | 2.13s |
| #58 | GLM 5V Turbo none | Z.ai | 1 | 6.5 | 1/2 | 1.97s |