Fallos AI BENCHY
Fallos por Respuesta incorrecta
Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
En la categoría Específico del dominio182 En la categoría Trucos anti-IA165 En la categoría Resolución de acertijos85 En la categoría Seguimiento de instrucciones44 En la categoría Combinado37 En la categoría Programación28 En la categoría Análisis y extracción de datos19 En la categoría Inteligencia general10 En la categoría Llamada de herramientas2
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #92 | Qwen3 Coder Next medium | Qwen | 9 | 4.7 | 3/18 | 10.8s |
| #98 | LFM2-24B-A2B none | Liquid | 9 | 4.1 | 1/16 | 811ms |
| #55 | MiMo-V2-Omni none | Xiaomi | 8 | 6.5 | 8/18 | 1.99s |
| #58 | GLM 5V Turbo none | Z.ai | 8 | 6.2 | 8/18 | 3.10s |
| #64 | DeepSeek V3.2 none | DeepSeek | 8 | 6.1 | 7/18 | 12.1s |
| #69 | Kimi K2.6 none | Moonshot AI | 8 | 5.8 | 7/18 | 2.05s |
| #73 | Mistral Small 4 medium | Mistral | 8 | 5.7 | 5/18 | 5.64s |
| #93 | GLM 4.7 Flash medium | Z.ai | 8 | 4.6 | 4/18 | 32.3s |
| #57 | GPT-5 Nano medium | OpenAI | 7 | 6.3 | 7/18 | 44.1s |
| #60 | Gemma 4 26B A4B none | 7 | 6.2 | 7/18 | 6.59s | |
| #68 | gpt-oss-120b medium | OpenAI | 7 | 5.8 | 7/18 | 16.1s |
| #54 | Mercury 2 medium | Inception | 6 | 6.5 | 8/18 | 2.21s |
| #84 | gpt-oss-120b none | OpenAI | 6 | 5.2 | 4/18 | 12.0s |
| #21 | Gemini 3 Flash Preview none | 5 | 8.1 | 13/18 | 1.65s | |
| #28 | GPT-5.2 Chat none | OpenAI | 5 | 7.9 | 12/18 | 6.84s |