Fallos AI BENCHY
Fallos por No siguió las instrucciones
Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↓.
Categorías
| Rango | Modelo | Empresa | Cantidad de No siguió las instrucciones | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #134 | GLM 5 Turbo none | Z.ai | 2 | 5.2 | 6/21 | 2.82s |
| #136 | Elephant Alpha medium | Openrouter | 2 | 5.1 | 6/21 | 1.27s |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.0 | 5/21 | 26.8s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 4.9 | 5/21 | 8.62s |
| #141 | Nemotron 3 Super none | NVIDIA | 2 | 4.9 | 5/21 | 5.30s |
| #142 | Mistral Small 4 none | Mistral | 1 | 4.9 | 5/21 | 630ms |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 4.9 | 5/21 | 2.20s |
| #144 | GPT-5.4 Mini none | OpenAI | 3 | 4.9 | 5/21 | 1.13s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 4.8 | 5/19 | 806ms |
| #147 | GPT-4o-mini none | OpenAI | 1 | 4.8 | 5/21 | 1.77s |
| #148 | GPT-5.4 Nano none | OpenAI | 2 | 4.7 | 4/21 | 1.48s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |