Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Programación

6.1

Mejor modelo

Qwen3.6 Plus Preview 0.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta119 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Tiempo agotado12 Con motivo de fallo Formato extra7 Con motivo de fallo Error de API6

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Pruebas correctas	Tiempo de respuesta (promedio)
#100	Seed-2.0-Lite none	Bytedance Seed	6.8	5.9	1/2	2.95s
#134	Nemotron 3 Super none	NVIDIA	3.4	5.0	0/2	3.02s
#69	Qwen3.6 Max Preview none	Qwen	4.2	7.1	0/2	3.06s
#113	GLM 4.7 Flash none	Z.ai	5.0	5.6	0/2	3.35s
#25	Gemini 3.5 Flash minimal	Google	7.0	7.9	1/2	3.39s
#37	Gemini 3.1 Flash Lite medium	Google	6.8	7.7	1/2	3.59s
#136	MiMo-V2.5 none	Xiaomi	6.8	5.0	1/2	3.74s
#99	GLM 5V Turbo none	Z.ai	6.8	5.9	1/2	3.77s
#92	Gemma 4 26B A4B none	Google	4.1	6.2	0/2	3.83s
#36	Gemini 3.1 Flash Lite Preview medium	Google	6.8	7.7	1/2	3.98s
#147	Hy3 preview none	Tencent	2.3	4.6	0/1	4.56s
#91	GLM 5 none	Z.ai	4.6	6.3	0/2	5.18s
#143	Qwen3.5-9B none	Qwen	4.4	4.7	0/2	5.39s
#3	Gemini 3.5 Flash low	Google	6.8	9.3	1/2	5.54s
#107	Qwen3.6 27B none	Qwen	6.8	5.8	1/2	5.75s

Ranking de Programación

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)