Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Programación

5.7

Mejor modelo

Gemini 3.5 Flash 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta230 Con motivo de fallo Error de API43 Con motivo de fallo Tiempo agotado25 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Formato extra12

189/189

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $1.115 Tiempo de respuesta (promedio) 23.0s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.649 Tiempo de respuesta (promedio) 11.3s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.523 Tiempo de respuesta (promedio) 35.3s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.966 Tiempo de respuesta (promedio) 9.40s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.821 Tiempo de respuesta (promedio) 12.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.907 Tiempo de respuesta (promedio) 15.0s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $3.165 Tiempo de respuesta (promedio) 15.6s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.740 Tiempo de respuesta (promedio) 19.5s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $1.107 Tiempo de respuesta (promedio) 15.3s
#18	GLM 5 medium	Z.ai	10.0	8.6	$0.228	3/3	74.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.228 Tiempo de respuesta (promedio) 74.3s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.159 Tiempo de respuesta (promedio) 27.6s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.548 Tiempo de respuesta (promedio) 22.7s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.760 Tiempo de respuesta (promedio) 13.7s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms

Ranking de Programación

Filtrar modelos

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)