Ranking de Programación x Sin respuesta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Sin respuesta dentro de Programación, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemma 4 26B A4B 2

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado23 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Programación18 Cultura general10 Específico del dominio6 Análisis y extracción de datos5 Trucos anti-IA4 Combinado3 Llamada de herramientas2 Resolución de acertijos2 Seguimiento de instrucciones2

16/16

Rango	Modelo	Empresa	Cantidad de Sin respuesta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.045 Tiempo de respuesta (promedio) 272.5s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.070 Tiempo de respuesta (promedio) 258.4s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.033 Tiempo de respuesta (promedio) 219.8s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.348 Tiempo de respuesta (promedio) 217.5s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.888 Tiempo de respuesta (promedio) 214.4s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.401 Tiempo de respuesta (promedio) 206.6s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $1.148 Tiempo de respuesta (promedio) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.303 Tiempo de respuesta (promedio) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.683 Tiempo de respuesta (promedio) 183.9s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.336 Tiempo de respuesta (promedio) 143.0s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.288 Tiempo de respuesta (promedio) 109.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.100 Tiempo de respuesta (promedio) 101.9s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.036 Tiempo de respuesta (promedio) 100.9s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.054 Tiempo de respuesta (promedio) 55.3s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.146 Tiempo de respuesta (promedio) 50.5s

Filtrar modelos

Mejores modelos por Cantidad de Sin respuesta

Cantidad de Sin respuesta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Sin respuesta

Filtrar modelos

Mejores modelos por Cantidad de Sin respuesta

Cantidad de Sin respuesta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado