Ranking de modelos de Programação

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Programação

5.7

Melhor modelo

Gemini 3 PRO Preview 3.0

Motivos de falha

Com motivo de falha Resposta incorreta230 Com motivo de falha Erro de API43 Com motivo de falha Tempo esgotado25 Com motivo de falha Sem resposta18 Com motivo de falha Não seguiu as instruções16 Com motivo de falha Formatação extra12

189/189

Posição	Modelo	Empresa	Pontuação de Programação	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 18.7s
#59	GPT-5.4 Nano medium	OpenAI	6.1	7.5	$0.107	1/3	19.1s
Total de testes 3 Testes errados 2 Custo total $0.107 Tempo de resposta (médio) 19.1s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
Total de testes 3 Testes errados 0 Custo total $0.740 Tempo de resposta (médio) 19.5s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
Total de testes 1 Testes errados 0 Custo total $0.547 Tempo de resposta (médio) 21.4s
#151	North Mini Code none	Cohere	3.9	5.1	$0.000	0/3	22.0s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 22.0s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
Total de testes 3 Testes errados 0 Custo total $0.548 Tempo de resposta (médio) 22.7s
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
Total de testes 3 Testes errados 0 Custo total $1.115 Tempo de resposta (médio) 23.0s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
Total de testes 1 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 23.6s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
Total de testes 3 Testes errados 2 Custo total $0.027 Tempo de resposta (médio) 24.6s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
Total de testes 3 Testes errados 1 Custo total $0.158 Tempo de resposta (médio) 26.5s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
Total de testes 1 Testes errados 0 Custo total $5.599 Tempo de resposta (médio) 27.1s
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
Total de testes 3 Testes errados 1 Custo total $0.376 Tempo de resposta (médio) 27.4s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
Total de testes 3 Testes errados 0 Custo total $0.159 Tempo de resposta (médio) 27.6s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
Total de testes 3 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 27.9s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
Total de testes 3 Testes errados 2 Custo total $2.053 Tempo de resposta (médio) 30.1s

Ranking de Programação

Filtrar modelos

Melhores modelos por Pontuação de Programação

Pontuação de Programação vs custo total

Melhores modelos por Tempo de resposta (médio)