Ranking de modelos de Programação

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças.

Modelos exibidos

Média de Pontuação de Programação

5.7

Melhor modelo

Motivos de falha

Com motivo de falha Resposta incorreta230 Com motivo de falha Erro de API43 Com motivo de falha Tempo esgotado25 Com motivo de falha Sem resposta18 Com motivo de falha Não seguiu as instruções16 Com motivo de falha Formatação extra12

189/189

Posição	Modelo	Empresa	Pontuação de Programação	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
Total de testes 3 Testes errados 0 Custo total $1.115 Tempo de resposta (médio) 23.0s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
Total de testes 3 Testes errados 0 Custo total $0.649 Tempo de resposta (médio) 11.3s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
Total de testes 3 Testes errados 0 Custo total $0.523 Tempo de resposta (médio) 35.3s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
Total de testes 3 Testes errados 0 Custo total $0.966 Tempo de resposta (médio) 9.40s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
Total de testes 3 Testes errados 0 Custo total $0.821 Tempo de resposta (médio) 12.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
Total de testes 3 Testes errados 0 Custo total $0.907 Tempo de resposta (médio) 15.0s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
Total de testes 3 Testes errados 0 Custo total $3.165 Tempo de resposta (médio) 15.6s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
Total de testes 3 Testes errados 0 Custo total $0.740 Tempo de resposta (médio) 19.5s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
Total de testes 3 Testes errados 0 Custo total $1.107 Tempo de resposta (médio) 15.3s
#18	GLM 5 medium	Z.ai	10.0	8.6	$0.228	3/3	74.3s
Total de testes 3 Testes errados 0 Custo total $0.228 Tempo de resposta (médio) 74.3s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
Total de testes 3 Testes errados 0 Custo total $0.159 Tempo de resposta (médio) 27.6s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
Total de testes 3 Testes errados 0 Custo total $0.548 Tempo de resposta (médio) 22.7s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
Total de testes 3 Testes errados 0 Custo total $0.760 Tempo de resposta (médio) 13.7s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms

Ranking de Programação

Filtrar modelos

Melhores modelos por Pontuação de Programação

Pontuação de Programação vs custo total

Melhores modelos por Tempo de resposta (médio)