Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Programación

5.7

Mejor modelo

Gemini 3 PRO Preview 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta230 Con motivo de fallo Error de API43 Con motivo de fallo Tiempo agotado25 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Formato extra12

189/189

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.649 Tiempo de respuesta (promedio) 11.3s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.821 Tiempo de respuesta (promedio) 12.5s
#11	Gemini 3.5 Flash medium	Google	7.9	9.1	$0.582	2/3	12.6s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.582 Tiempo de respuesta (promedio) 12.6s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.679 Tiempo de respuesta (promedio) 13.0s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.034 Tiempo de respuesta (promedio) 13.4s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.760 Tiempo de respuesta (promedio) 13.7s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.008 Tiempo de respuesta (promedio) 14.3s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 14.4s
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.016 Tiempo de respuesta (promedio) 14.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.907 Tiempo de respuesta (promedio) 15.0s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $1.107 Tiempo de respuesta (promedio) 15.3s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $3.165 Tiempo de respuesta (promedio) 15.6s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.924 Tiempo de respuesta (promedio) 15.6s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 17.1s
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.550 Tiempo de respuesta (promedio) 17.3s

Ranking de Programación

Filtrar modelos

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)