Ranking de modelos de Programação

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Programação

5.7

Melhor modelo

North Mini Code 4.5

Motivos de falha

Com motivo de falha Resposta incorreta230 Com motivo de falha Erro de API43 Com motivo de falha Tempo esgotado25 Com motivo de falha Sem resposta18 Com motivo de falha Não seguiu as instruções16 Com motivo de falha Formatação extra12

189/189

Posição	Modelo	Empresa	Pontuação de Programação	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#21	Seed-2.0-Lite medium	Bytedance Seed	8.0	8.5	$0.175	2/3	156.7s
Total de testes 3 Testes errados 1 Custo total $0.175 Tempo de resposta (médio) 156.7s
#26	Grok 4.5 medium	X AI	7.6	8.3	$1.696	2/3	155.7s
Total de testes 3 Testes errados 1 Custo total $1.696 Tempo de resposta (médio) 155.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
Total de testes 3 Testes errados 2 Custo total $0.294 Tempo de resposta (médio) 153.1s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
Total de testes 3 Testes errados 3 Custo total $0.020 Tempo de resposta (médio) 147.3s
#79	Kimi K2.7 Code medium	Moonshot AI	7.6	7.0	$0.581	2/3	146.7s
Total de testes 3 Testes errados 1 Custo total $0.581 Tempo de resposta (médio) 146.7s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
Total de testes 3 Testes errados 1 Custo total $0.960 Tempo de resposta (médio) 146.5s
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
Total de testes 3 Testes errados 2 Custo total $0.131 Tempo de resposta (médio) 144.7s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
Total de testes 3 Testes errados 2 Custo total $0.026 Tempo de resposta (médio) 143.8s
#95	Qwen3.6 27B medium	Qwen	7.7	6.6	$0.336	2/3	143.0s
Total de testes 3 Testes errados 1 Custo total $0.336 Tempo de resposta (médio) 143.0s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
Total de testes 1 Testes errados 0 Custo total $2.044 Tempo de resposta (médio) 137.6s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
Total de testes 3 Testes errados 2 Custo total $0.317 Tempo de resposta (médio) 125.3s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
Total de testes 3 Testes errados 2 Custo total $0.588 Tempo de resposta (médio) 114.5s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
Total de testes 3 Testes errados 2 Custo total $0.609 Tempo de resposta (médio) 109.9s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
Total de testes 3 Testes errados 3 Custo total $0.288 Tempo de resposta (médio) 109.6s
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
Total de testes 3 Testes errados 2 Custo total $0.177 Tempo de resposta (médio) 108.6s

Ranking de Programação

Filtrar modelos

Melhores modelos por Pontuação de Programação

Pontuação de Programação vs custo total

Melhores modelos por Tempo de resposta (médio)