Fallos AI BENCHY
Fallos por No siguió las instrucciones
Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
| Rango | Modelo | Empresa | Cantidad de No siguió las instrucciones | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #125 | GPT-5.4 none | OpenAI | 1 | 5.5 | 7/21 | 1.42s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 5.4 | 7/21 | 1.60s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 5.2 | 6/21 | 13.8s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.0 | 5/21 | 26.8s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 4.9 | 5/21 | 8.62s |
| #142 | Mistral Small 4 none | Mistral | 1 | 4.9 | 5/21 | 630ms |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 4.9 | 5/21 | 2.20s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 4.8 | 5/19 | 806ms |
| #147 | GPT-4o-mini none | OpenAI | 1 | 4.8 | 5/21 | 1.77s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #155 | Mercury 2 none | Inception | 1 | 4.5 | 4/21 | 653ms |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 4.2 | 2/16 | 782ms |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 4.2 | 3/21 | 82.2s |