Fallos por categoría de AI BENCHY
Seguimiento de instrucciones: Respuesta incorrecta
Seguimiento de instrucciones
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.6 | 0/2 | 344ms |
| #142 | Mistral Small 4 none | Mistral | 1 | 6.5 | 1/2 | 380ms |
| #146 | Laguna Xs.2 none | Poolside | 1 | 6.5 | 1/2 | 439ms |
| #127 | Grok 4.20 none | X AI | 1 | 6.3 | 1/2 | 445ms |
| #131 | Qwen3.5-122B-A10B none | Qwen | 1 | 6.3 | 1/2 | 513ms |
| #154 | Qwen3.5-9B none | Qwen | 1 | 6.5 | 1/2 | 514ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 4.8 | 0/2 | 541ms |
| #155 | Mercury 2 none | Inception | 1 | 6.5 | 1/2 | 551ms |
| #106 | Grok 4.20 Beta none | X AI | 1 | 6.3 | 1/2 | 649ms |
| #145 | Laguna M.1 none | Poolside | 1 | 6.3 | 1/2 | 683ms |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/2 | 685ms |
| #102 | Gemma 4 26B A4B none | 1 | 6.3 | 1/2 | 690ms | |
| #144 | GPT-5.4 Mini none | OpenAI | 1 | 6.3 | 1/2 | 728ms |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 6.5 | 1/2 | 751ms |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 6.3 | 1/2 | 752ms |