Ranking de modelos de Programação

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças.

Modelos exibidos

Média de Pontuação de Programação

7.2

Melhor modelo

Motivos de falha

Com motivo de falha Resposta incorreta26 Com motivo de falha Tempo esgotado12 Com motivo de falha Erro de API6 Com motivo de falha Não seguiu as instruções2

Posição	Modelo	Empresa	Pontuação de Programação	Pontuação	Testes corretos	Tempo de resposta (médio)
#1	Gemini 3 Flash Preview medium	Google	10.0	10.0	1/1	79.7s
#2	Gemini 3.1 Pro Preview medium	Google	10.0	9.6	1/1	19.9s
#3	Gemini 3 Flash Preview low	Google	10.0	8.8	1/1	6.94s
#4	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.6	1/1	74.5s
#5	GPT-5.3-Codex medium	OpenAI	10.0	8.6	1/1	8.95s
#6	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	8.5	1/1	120.9s
#8	Qwen3.5-27B medium	Qwen	10.0	8.4	1/1	70.4s
#11	GLM 5 medium	Z.ai	10.0	8.4	1/1	79.1s
#13	Gemini 2.5 Flash medium	Google	10.0	8.2	1/1	16.2s
#14	GPT-5.4 medium	OpenAI	10.0	8.2	1/1	13.0s
#15	Gemini 3.1 Flash Lite Preview medium	Google	10.0	8.2	1/1	4.34s
#16	GLM 5 Turbo medium	Z.ai	10.0	8.1	1/1	12.3s
#19	Gemini 3 Flash Preview none	Google	10.0	8.1	1/1	1.59s
#20	Gemini 3.1 Flash Lite Preview low	Google	10.0	8.1	1/1	2.20s
#21	MiMo-V2-Pro medium	Xiaomi	10.0	8.1	1/1	52.1s

1 2 3 4 5 6

→

Ranking de Programação