Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Promedio de Puntuación de Programación

5.7

Mejor modelo

Gemini 3.5 Flash 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta230 Con motivo de fallo Error de API43 Con motivo de fallo Tiempo agotado25 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Formato extra12

189/189

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
Pruebas totales 0 Pruebas incorrectas 0 Costo total $2.310 Tiempo de respuesta (promedio) 0ms
#116	Qwen3.6 Max Preview none	Qwen	3.8	6.0	$0.075	0/3	3.12s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.075 Tiempo de respuesta (promedio) 3.12s
#118	GLM 5 none	Z.ai	4.0	6.0	$0.027	0/3	5.12s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.027 Tiempo de respuesta (promedio) 5.12s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	4.3	5.8	$0.016	0/3	2.05s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.016 Tiempo de respuesta (promedio) 2.05s
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 320.4s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.021 Tiempo de respuesta (promedio) 2.75s
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.287 Tiempo de respuesta (promedio) 3.67s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 23.6s
#134	GLM 5.1 none	Z.ai	3.9	5.6	$0.057	0/3	4.96s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.057 Tiempo de respuesta (promedio) 4.96s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 17.1s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.017 Tiempo de respuesta (promedio) 1.41s
#139	Gemma 4 26B A4B none	Google	3.7	5.5	$0.004	0/3	4.16s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.004 Tiempo de respuesta (promedio) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	3.9	5.5	$0.032	0/3	1.69s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.032 Tiempo de respuesta (promedio) 1.69s
#141	GLM 5 Turbo none	Z.ai	3.9	5.3	$0.047	0/3	2.41s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.047 Tiempo de respuesta (promedio) 2.41s

←

1 9 10 11 13

→

Ranking de Programación

Filtrar modelos

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)