AI BENCHY
Your ad here

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

15

Fallos totales

572

Modelo más afectado

Gemini 3.1 Pro Preview 1
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#2 Gemini 3.1 Pro Preview medium Google 1 9.6 17/18 16.0s
#3 Claude Opus 4.7 medium Anthropic 1 9.2 16/18 3.53s
#10 Qwen3.5-27B medium Qwen 1 8.4 13/18 53.0s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#97 Qwen3.5-9B medium Qwen 1 4.4 3/18 73.6s
#4 Claude Opus 4.7 none Anthropic 2 9.2 16/18 3.13s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 2 8.5 14/18 46.6s
#13 GLM 5 medium Z.ai 2 8.4 13/18 23.3s
#24 Gemma 4 26B A4B medium Google 2 8.0 13/18 25.0s
#26 Claude Sonnet 4.6 medium Anthropic 2 8.0 13/18 12.7s
#34 Kimi K2.6 medium Moonshot AI 2 7.7 11/18 45.2s
#37 Claude Opus 4.6 medium Anthropic 2 7.6 12/18 21.1s
#39 Seed-2.0-Mini medium Bytedance Seed 2 7.5 11/18 69.7s
#40 GPT-5.2 medium OpenAI 2 7.5 11/18 14.0s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)