Fallos AI BENCHY
Fallos por Respuesta incorrecta
Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
En la categoría Específico del dominio182 En la categoría Trucos anti-IA165 En la categoría Resolución de acertijos85 En la categoría Seguimiento de instrucciones44 En la categoría Combinado37 En la categoría Programación28 En la categoría Análisis y extracción de datos19 En la categoría Inteligencia general10 En la categoría Llamada de herramientas2
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #7 | GPT-5.3-Codex medium | OpenAI | 3 | 8.6 | 13/18 | 15.4s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 3 | 8.5 | 13/17 | 13.9s |
| #11 | Gemini 3.1 Flash Lite Preview high | 3 | 8.4 | 12/16 | 68.8s | |
| #12 | Gemini 3 PRO Preview medium | 3 | 8.4 | 14/18 | 9.06s | |
| #16 | GPT-5.4 medium | OpenAI | 3 | 8.2 | 13/18 | 18.6s |
| #18 | GLM 5 Turbo medium | Z.ai | 3 | 8.1 | 12/18 | 17.7s |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 3 | 8.1 | 13/18 | 31.4s |
| #20 | Qwen3.6 Plus medium | Qwen | 3 | 8.1 | 13/18 | 15.3s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 3 | 8.1 | 12/18 | 12.3s |
| #25 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 3 | 8.0 | 12/18 | 46.4s |
| #30 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #31 | GLM 5V Turbo medium | Z.ai | 3 | 7.8 | 11/18 | 15.0s |
| #33 | GLM 5.1 medium | Z.ai | 3 | 7.8 | 12/18 | 24.1s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 3 | 7.7 | 11/18 | 16.8s |