AI BENCHY
Your ad here

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↓.

Modelos mostrados

15

Fallos totales

572

Modelo más afectado

Gemini 3.1 Pro Preview 1
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#34 Kimi K2.6 medium Moonshot AI 2 7.7 11/18 45.2s
#35 MiMo-V2-Omni medium Xiaomi 3 7.7 11/18 16.8s
#36 GPT-5.3 Chat none OpenAI 5 7.7 11/18 5.88s
#37 Claude Opus 4.6 medium Anthropic 2 7.6 12/18 21.1s
#38 GPT-5.4 Nano medium OpenAI 4 7.6 11/18 11.2s
#39 Seed-2.0-Mini medium Bytedance Seed 2 7.5 11/18 69.7s
#40 GPT-5.2 medium OpenAI 2 7.5 11/18 14.0s
#41 MiMo-V2-Flash medium Xiaomi 3 7.5 11/18 23.4s
#42 Claude Sonnet 4.6 none Anthropic 3 7.4 11/18 4.98s
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#44 GPT-5.4 Mini medium OpenAI 4 7.3 9/18 15.2s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#46 Kimi K2.5 medium Moonshot AI 4 7.0 9/18 72.4s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)