Ranking de modelos de Programación

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Programación, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Promedio de Puntuación de Programación

6.1

Mejor modelo

Qwen3.6 Plus Preview 0.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta119 Con motivo de fallo Sin respuesta18 Con motivo de fallo No siguió las instrucciones16 Con motivo de fallo Tiempo agotado12 Con motivo de fallo Formato extra7 Con motivo de fallo Error de API6

Rango	Modelo	Empresa	Puntuación de Programación	Puntuación	Pruebas correctas	Tiempo de respuesta (promedio)
#74	Grok 4.20 medium	X AI	4.1	7.0	0/2	65.1s
#75	MiMo-V2-Omni medium	Xiaomi	3.4	6.9	0/2	183.9s
#76	Hunter Alpha medium	OpenRouter	3.0	6.7	0/1	0ms
#79	Kimi K2.5 medium	Moonshot AI	4.1	6.7	0/2	215.9s
#82	Laguna Xs.2 medium	Poolside	6.3	6.6	0/1	14.4s
#83	DeepSeek V4 Pro high	DeepSeek	2.8	6.6	0/2	51.8s
#88	Grok 4.1 Fast medium	X AI	2.3	6.5	0/1	23.6s
#89	Qwen3.5 Plus 2026-02-15 none	Qwen	4.9	6.4	0/2	2.54s
#91	GLM 5 none	Z.ai	4.6	6.3	0/2	5.18s
#92	Gemma 4 26B A4B none	Google	4.1	6.2	0/2	3.83s
#93	MiMo-V2-Omni none	Xiaomi	5.1	6.2	0/2	2.75s
#94	GPT-5 Nano medium	OpenAI	5.4	6.1	0/2	47.8s
#95	DeepSeek V4 Pro none	DeepSeek	5.4	6.0	0/2	8.27s
#96	Nemotron 3 Super medium	NVIDIA	3.1	5.9	0/2	62.4s
#97	gpt-oss-120b medium	OpenAI	3.9	5.9	0/2	47.2s

Ranking de Programación

Mejores modelos por Puntuación de Programación

Puntuación de Programación vs costo total

Mejores modelos por Tiempo de respuesta (promedio)