Ranking de modelos de Programação

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Programação

5.7

Melhor modelo

North Mini Code 4.5

Motivos de falha

Com motivo de falha Resposta incorreta230 Com motivo de falha Erro de API43 Com motivo de falha Tempo esgotado25 Com motivo de falha Sem resposta18 Com motivo de falha Não seguiu as instruções16 Com motivo de falha Formatação extra12

189/189

Posição	Modelo	Empresa	Pontuação de Programação	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
Total de testes 3 Testes errados 2 Custo total $0.027 Tempo de resposta (médio) 24.6s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
Total de testes 1 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 23.6s
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
Total de testes 3 Testes errados 0 Custo total $1.115 Tempo de resposta (médio) 23.0s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
Total de testes 3 Testes errados 0 Custo total $0.548 Tempo de resposta (médio) 22.7s
#151	North Mini Code none	Cohere	3.9	5.1	$0.000	0/3	22.0s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 22.0s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
Total de testes 1 Testes errados 0 Custo total $0.547 Tempo de resposta (médio) 21.4s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
Total de testes 3 Testes errados 0 Custo total $0.740 Tempo de resposta (médio) 19.5s
#59	GPT-5.4 Nano medium	OpenAI	6.1	7.5	$0.107	1/3	19.1s
Total de testes 3 Testes errados 2 Custo total $0.107 Tempo de resposta (médio) 19.1s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 18.7s
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
Total de testes 3 Testes errados 1 Custo total $0.550 Tempo de resposta (médio) 17.3s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
Total de testes 3 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 17.1s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
Total de testes 3 Testes errados 2 Custo total $0.924 Tempo de resposta (médio) 15.6s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
Total de testes 3 Testes errados 0 Custo total $3.165 Tempo de resposta (médio) 15.6s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
Total de testes 3 Testes errados 0 Custo total $1.107 Tempo de resposta (médio) 15.3s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
Total de testes 3 Testes errados 0 Custo total $0.907 Tempo de resposta (médio) 15.0s

Ranking de Programação

Filtrar modelos

Melhores modelos por Pontuação de Programação

Pontuação de Programação vs custo total

Melhores modelos por Tempo de resposta (médio)