Fallos AI BENCHY
Fallos por Respuesta incorrecta
Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
En la categoría Específico del dominio314 En la categoría Trucos anti-IA245 En la categoría Programación194 En la categoría Resolución de acertijos147 En la categoría Cultura general130 En la categoría Seguimiento de instrucciones53 En la categoría Combinado52 En la categoría Análisis y extracción de datos35 En la categoría Inteligencia general32 En la categoría Llamada de herramientas2
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #5 | Qwen3.7 Max medium | Qwen | 3 | 9.1 | 18/21 | 16.0s |
| #6 | GPT-5.5 low | OpenAI | 3 | 9.0 | 18/21 | 9.76s |
| #8 | Claude Opus 4.7 none | Anthropic | 3 | 8.9 | 16/19 | 3.02s |
| #10 | Claude Opus 4.8 medium | Anthropic | 3 | 8.7 | 17/21 | 9.66s |
| #11 | Claude Opus 4.7 medium | Anthropic | 3 | 8.7 | 17/21 | 4.73s |
| #13 | Grok 4.20 Beta medium | X AI | 3 | 8.5 | 14/18 | 9.75s |
| #17 | GLM 5 medium | Z.ai | 3 | 8.3 | 15/21 | 33.5s |
| #20 | Gemini 3.5 Flash none | 3 | 8.1 | 15/21 | 9.93s | |
| #33 | Hy3 preview medium | Tencent | 3 | 7.7 | 14/21 | 16.3s |
| #35 | Gemini 3 PRO Preview medium | 3 | 7.6 | 14/21 | 9.05s | |
| #37 | Gemma 4 26B A4B medium | 3 | 7.6 | 14/21 | 63.4s | |
| #42 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 13/21 | 16.9s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 3 | 7.5 | 12/21 | 26.1s |
| #60 | Kimi K2.6 medium | Moonshot AI | 3 | 7.2 | 12/21 | 71.7s |
| #67 | MiniMax M3 medium | Minimax | 3 | 7.1 | 11/21 | 68.2s |