Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Programación

7.2

Mejor modelo

Motivos de fallo

Con motivo de fallo Respuesta incorrecta26 Con motivo de fallo Tiempo agotado12 Con motivo de fallo Error de API6 Con motivo de fallo No siguió las instrucciones2

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Pruebas correctas	Tiempo de respuesta (promedio)
#1	Gemini 3 Flash Preview medium	Google	10.0	10.0	1/1	79.7s
#2	Gemini 3.1 Pro Preview medium	Google	10.0	9.6	1/1	19.9s
#3	Gemini 3 Flash Preview low	Google	10.0	8.8	1/1	6.94s
#4	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.6	1/1	74.5s
#5	GPT-5.3-Codex medium	OpenAI	10.0	8.6	1/1	8.95s
#6	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	8.5	1/1	120.9s
#8	Qwen3.5-27B medium	Qwen	10.0	8.4	1/1	70.4s
#11	GLM 5 medium	Z.ai	10.0	8.4	1/1	79.1s
#13	Gemini 2.5 Flash medium	Google	10.0	8.2	1/1	16.2s
#14	GPT-5.4 medium	OpenAI	10.0	8.2	1/1	13.0s
#15	Gemini 3.1 Flash Lite Preview medium	Google	10.0	8.2	1/1	4.34s
#16	GLM 5 Turbo medium	Z.ai	10.0	8.1	1/1	12.3s
#19	Gemini 3 Flash Preview none	Google	10.0	8.1	1/1	1.59s
#20	Gemini 3.1 Flash Lite Preview low	Google	10.0	8.1	1/1	2.20s
#21	MiMo-V2-Pro medium	Xiaomi	10.0	8.1	1/1	52.1s

1 2 3 4 5 6

→

Ranking de Programación