Ranking de Programación x Tiempo agotado

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Tiempo agotado dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Motivos de fallo

Respuesta incorrecta26 Tiempo agotado12 Error de API6 No siguió las instrucciones2

Categorías

Específico del dominio28 Programación12 Resolución de acertijos6 Inteligencia general4 Trucos anti-IA4 Combinado2 Análisis y extracción de datos1 Seguimiento de instrucciones1

Rango	Modelo	Empresa	Cantidad de Tiempo agotado	Puntuación de categoría	Pruebas correctas	Tiempo de respuesta (promedio)
#12	Gemma 4 31B medium	Google	1	4.7	0/1	71.0s
#17	Qwen3.5-122B-A10B medium	Qwen	1	4.7	0/1	71.0s
#22	Gemma 4 26B A4B medium	Google	1	2.8	0/1	147.5s
#25	DeepSeek V3.2 medium	DeepSeek	1	4.7	0/1	180.9s
#30	Qwen3.5-Flash medium	Qwen	1	4.7	0/1	45.7s
#31	GLM 5.1 medium	Z.ai	1	4.7	0/1	118.5s
#38	MiMo-V2-Flash medium	Xiaomi	1	4.7	0/1	13.0s
#43	Kimi K2.5 medium	Moonshot AI	1	4.7	0/1	150.8s
#57	Gemma 4 26B A4B none	Google	1	4.7	0/1	7.07s
#67	MiniMax M2.5 medium	Minimax	1	3.0	0/1	0ms
#86	Qwen3 Coder Next medium	Qwen	1	4.7	0/1	1.69s
#87	GLM 4.7 Flash medium	Z.ai	1	3.6	0/1	21.3s

Mejores modelos por Cantidad de Tiempo agotado