Ranking de modelos de Programação

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

Média de Pontuação de Programação

5.7

Melhor modelo

Gemini 3.5 Flash 10.0

Motivos de falha

Com motivo de falha Resposta incorreta230 Com motivo de falha Erro de API43 Com motivo de falha Tempo esgotado25 Com motivo de falha Sem resposta18 Com motivo de falha Não seguiu as instruções16 Com motivo de falha Formatação extra12

189/189

Posição	Modelo	Empresa	Pontuação de Programação	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
Total de testes 3 Testes errados 2 Custo total $0.031 Tempo de resposta (médio) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
Total de testes 3 Testes errados 2 Custo total $0.006 Tempo de resposta (médio) 3.24s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
Total de testes 3 Testes errados 2 Custo total $0.001 Tempo de resposta (médio) 11.2s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
Total de testes 3 Testes errados 2 Custo total $0.026 Tempo de resposta (médio) 143.8s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
Total de testes 3 Testes errados 3 Custo total $0.288 Tempo de resposta (médio) 42.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
Total de testes 3 Testes errados 3 Custo total $0.045 Tempo de resposta (médio) 272.5s
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
Total de testes 3 Testes errados 3 Custo total $0.042 Tempo de resposta (médio) 7.55s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
Total de testes 3 Testes errados 3 Custo total $1.148 Tempo de resposta (médio) 206.2s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
Total de testes 3 Testes errados 3 Custo total $0.288 Tempo de resposta (médio) 109.6s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
Total de testes 3 Testes errados 3 Custo total $0.080 Tempo de resposta (médio) 58.9s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
Total de testes 3 Testes errados 3 Custo total $0.683 Tempo de resposta (médio) 183.9s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
Total de testes 2 Testes errados 2 Custo total $0.070 Tempo de resposta (médio) 258.4s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
Total de testes 3 Testes errados 3 Custo total $0.020 Tempo de resposta (médio) 147.3s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
Total de testes 3 Testes errados 3 Custo total $0.033 Tempo de resposta (médio) 219.8s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
Total de testes 3 Testes errados 3 Custo total $0.385 Tempo de resposta (médio) 0ms

Ranking de Programação

Filtrar modelos

Melhores modelos por Pontuação de Programação

Pontuação de Programação vs custo total

Melhores modelos por Tempo de resposta (médio)