AI BENCHY
Advertise here

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

15

Fallos totales

1204

Modelo más afectado

Kimi K2.5 5
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#35 Gemini 3 PRO Preview medium Google 3 7.6 14/21 9.05s
#2 Gemini 3.5 Flash high Google 1 9.6 20/21 8.84s
#140 Qwen3 Coder Next none Qwen 14 4.9 5/21 8.62s
#150 Qwen3 Coder Next medium Qwen 13 4.6 4/21 8.58s
#159 Ling-2.6-1T none Inclusionai 12 4.3 3/21 7.72s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#102 Gemma 4 26B A4B none Google 10 6.0 8/21 5.91s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s
#141 Nemotron 3 Super none NVIDIA 14 4.9 5/21 5.30s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#7 Gemini 3.5 Flash medium Google 2 9.0 18/21 4.94s
#11 Claude Opus 4.7 medium Anthropic 3 8.7 17/21 4.73s
#116 Hunter Alpha none OpenRouter 9 5.7 6/18 4.70s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)