Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Programación

5.7

Mejor modelo

Gemini 3 PRO Preview 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta230 Con motivo de fallo Error de API43 Con motivo de fallo Tiempo agotado25 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Formato extra12

189/189

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.385 Tiempo de respuesta (promedio) 0ms
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
Pruebas totales 0 Pruebas incorrectas 0 Costo total $2.310 Tiempo de respuesta (promedio) 0ms
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.020 Tiempo de respuesta (promedio) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
Pruebas totales 0 Pruebas incorrectas 0 Costo total $0.001 Tiempo de respuesta (promedio) 0ms
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 623ms
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.016 Tiempo de respuesta (promedio) 736ms
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 775ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.013 Tiempo de respuesta (promedio) 831ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.005 Tiempo de respuesta (promedio) 850ms
#149	Mistral Small 4 none	Mistral	3.7	5.1	$0.007	0/3	901ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 901ms
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.038 Tiempo de respuesta (promedio) 913ms
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.008 Tiempo de respuesta (promedio) 924ms

Ranking de Programación

Filtrar modelos

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)