AI BENCHY
Advertise here

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.

Modelos mostrados

15

Fallos totales

1204

Modelo más afectado

Mercury 2 16
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#51 Mimo V2 PRO medium Xiaomi 5 7.4 12/21 22.2s
#54 GPT-5 Mini medium OpenAI 5 7.3 12/21 23.6s
#56 MiMo-V2.5 medium Xiaomi 5 7.3 12/21 27.1s
#64 MiMo-V2-Flash medium Xiaomi 5 7.2 12/21 20.1s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#80 Mimo V2 Omni medium Xiaomi 5 6.7 10/21 41.2s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#105 Nemotron 3 Super medium NVIDIA 5 5.8 8/21 32.0s
#9 GPT-5.5 medium OpenAI 4 8.8 17/21 38.0s
#15 GPT-5.3-Codex medium OpenAI 4 8.4 15/21 16.2s
#23 GLM 5 Turbo medium Z.ai 4 8.0 14/21 23.0s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)