Ranking de modelos de Programação

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Programação

5.7

Melhor modelo

Gemini 3.1 Flash Lite Preview 0.0

Motivos de falha

Com motivo de falha Resposta incorreta230 Com motivo de falha Erro de API43 Com motivo de falha Tempo esgotado25 Com motivo de falha Sem resposta18 Com motivo de falha Não seguiu as instruções16 Com motivo de falha Formatação extra12

189/189

Posição	Modelo	Empresa	Pontuação de Programação	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
Total de testes 3 Testes errados 2 Custo total $0.013 Tempo de resposta (médio) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
Total de testes 3 Testes errados 2 Custo total $0.013 Tempo de resposta (médio) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
Total de testes 3 Testes errados 2 Custo total $0.005 Tempo de resposta (médio) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
Total de testes 3 Testes errados 2 Custo total $0.004 Tempo de resposta (médio) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
Total de testes 3 Testes errados 2 Custo total $0.027 Tempo de resposta (médio) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
Total de testes 3 Testes errados 2 Custo total $0.130 Tempo de resposta (médio) 1.00s
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
Total de testes 3 Testes errados 2 Custo total $0.012 Tempo de resposta (médio) 1.39s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
Total de testes 3 Testes errados 2 Custo total $0.052 Tempo de resposta (médio) 3.13s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
Total de testes 3 Testes errados 2 Custo total $0.045 Tempo de resposta (médio) 2.65s
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
Total de testes 3 Testes errados 2 Custo total $0.122 Tempo de resposta (médio) 1.62s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
Total de testes 3 Testes errados 2 Custo total $0.027 Tempo de resposta (médio) 24.6s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
Total de testes 3 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 4.16s
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
Total de testes 3 Testes errados 2 Custo total $0.038 Tempo de resposta (médio) 913ms
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
Total de testes 3 Testes errados 2 Custo total $0.031 Tempo de resposta (médio) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
Total de testes 3 Testes errados 2 Custo total $0.006 Tempo de resposta (médio) 3.24s

Ranking de Programação

Filtrar modelos

Melhores modelos por Pontuação de Programação

Pontuação de Programação vs custo total

Melhores modelos por Tempo de resposta (médio)