Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Promedio de Puntuación de Programación

5.7

Mejor modelo

North Mini Code 4.5

Motivos de fallo

Con motivo de fallo Respuesta incorrecta230 Con motivo de fallo Error de API43 Con motivo de fallo Tiempo agotado25 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Formato extra12

189/189

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.027 Tiempo de respuesta (promedio) 24.6s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 23.6s
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $1.115 Tiempo de respuesta (promedio) 23.0s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.548 Tiempo de respuesta (promedio) 22.7s
#151	North Mini Code none	Cohere	3.9	5.1	$0.000	0/3	22.0s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 22.0s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.547 Tiempo de respuesta (promedio) 21.4s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.740 Tiempo de respuesta (promedio) 19.5s
#59	GPT-5.4 Nano medium	OpenAI	6.1	7.5	$0.107	1/3	19.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.107 Tiempo de respuesta (promedio) 19.1s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 18.7s
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.550 Tiempo de respuesta (promedio) 17.3s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 17.1s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.924 Tiempo de respuesta (promedio) 15.6s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $3.165 Tiempo de respuesta (promedio) 15.6s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $1.107 Tiempo de respuesta (promedio) 15.3s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.907 Tiempo de respuesta (promedio) 15.0s

Ranking de Programación

Filtrar modelos

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)