AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Programación: Respuesta incorrecta

Programación
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

120

Modelo más afectado

Qwen3.6 Flash 2
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#85 Gemini 3.1 Flash Lite none Google 1 6.8 1/2 1.13s
#86 GPT-5.5 none OpenAI 1 6.8 1/2 1.52s
#90 Mercury 2 medium Inception 1 7.2 1/2 2.29s
#91 Gemma 4 26B A4B none Google 1 4.1 0/2 3.83s
#92 Gemini 2.5 Flash none Google 1 6.8 1/2 810ms
#93 MiMo-V2-Omni none Xiaomi 1 5.1 0/2 2.75s
#97 Qwen3.5-Flash none Qwen 1 6.8 1/2 993ms
#98 GLM 5V Turbo none Z.ai 1 6.8 1/2 3.77s
#99 Seed-2.0-Lite none Bytedance Seed 1 6.8 1/2 2.95s
#101 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#102 Qwen3.5-35B-A3B none Qwen 1 6.8 1/2 1.72s
#103 Qwen3.5-27B none Qwen 1 7.3 1/2 1.98s
#104 Qwen3.6 27B none Qwen 1 6.8 1/2 5.75s
#105 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#107 MiMo-V2-Pro none Xiaomi 1 6.8 1/2 2.65s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado