Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Promedio de Puntuación de Programación

5.7

Mejor modelo

Qwen3.6 Flash 5.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta230 Con motivo de fallo Error de API43 Con motivo de fallo Tiempo agotado25 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Formato extra12

189/189

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.288 Tiempo de respuesta (promedio) 42.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.045 Tiempo de respuesta (promedio) 272.5s
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.042 Tiempo de respuesta (promedio) 7.55s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $1.148 Tiempo de respuesta (promedio) 206.2s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.288 Tiempo de respuesta (promedio) 109.6s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.080 Tiempo de respuesta (promedio) 58.9s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.683 Tiempo de respuesta (promedio) 183.9s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.070 Tiempo de respuesta (promedio) 258.4s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.020 Tiempo de respuesta (promedio) 147.3s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.033 Tiempo de respuesta (promedio) 219.8s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.385 Tiempo de respuesta (promedio) 0ms
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
Pruebas totales 0 Pruebas incorrectas 0 Costo total $2.310 Tiempo de respuesta (promedio) 0ms
#116	Qwen3.6 Max Preview none	Qwen	3.8	6.0	$0.075	0/3	3.12s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.075 Tiempo de respuesta (promedio) 3.12s
#118	GLM 5 none	Z.ai	4.0	6.0	$0.027	0/3	5.12s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.027 Tiempo de respuesta (promedio) 5.12s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	4.3	5.8	$0.016	0/3	2.05s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.016 Tiempo de respuesta (promedio) 2.05s

Ranking de Programación

Filtrar modelos

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)