Fallos por categoría de AI BENCHY
Seguimiento de instrucciones: Respuesta incorrecta
Seguimiento de instrucciones
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #83 | Mistral Small 4 none | Mistral | 1 | 6.5 | 1/2 | 380ms |
| #82 | Grok 4.20 none | X AI | 1 | 4.8 | 0/2 | 455ms |
| #90 | Qwen3.5-9B none | Qwen | 1 | 6.5 | 1/2 | 514ms |
| #91 | Mercury 2 none | Inception | 1 | 6.5 | 1/2 | 551ms |
| #70 | Qwen3.5-122B-A10B none | Qwen | 2 | 4.5 | 0/2 | 585ms |
| #62 | Gemini 2.5 Flash none | 1 | 8.0 | 1/2 | 672ms | |
| #79 | Grok 4.20 Beta none | X AI | 1 | 4.8 | 0/2 | 687ms |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 6.3 | 1/2 | 728ms |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 5.0 | 0/2 | 787ms |
| #63 | Qwen3.5-35B-A3B none | Qwen | 1 | 6.3 | 1/2 | 809ms |
| #67 | Qwen3.5-27B none | Qwen | 2 | 4.8 | 0/2 | 815ms |
| #94 | MiMo-V2-Flash none | Xiaomi | 1 | 6.5 | 1/2 | 857ms |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 6.5 | 1/2 | 888ms |
| #95 | Grok 4.1 Fast none | X AI | 2 | 3.0 | 0/2 | 923ms |
| #66 | GPT-5.4 none | OpenAI | 1 | 6.5 | 1/2 | 1.07s |