Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças.

Modelos exibidos

Média de Pontuação de Combinado

5.6

Melhor modelo

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida91 Com motivo de falha Resposta incorreta69 Com motivo de falha Sem resposta32 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#136	Step 3.5 Flash medium	Stepfun	6.5	6.0	$0.108	1/2	813.7s
Total de testes 2 Testes errados 1 Custo total $0.108 Tempo de resposta (médio) 813.7s
#142	GPT-5.4 Mini none	OpenAI	6.5	5.9	$0.095	1/2	6.22s
Total de testes 2 Testes errados 1 Custo total $0.095 Tempo de resposta (médio) 6.22s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
Total de testes 2 Testes errados 1 Custo total $0.077 Tempo de resposta (médio) 74.5s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
Total de testes 2 Testes errados 1 Custo total $0.048 Tempo de resposta (médio) 19.6s
#168	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
Total de testes 2 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 23.8s
#39	Seed-2.0-Lite medium	Bytedance Seed	6.4	7.9	$0.234	1/2	58.5s
Total de testes 2 Testes errados 1 Custo total $0.234 Tempo de resposta (médio) 58.5s
#49	DeepSeek V4 Flash high	DeepSeek	6.4	7.7	$0.041	1/2	104.1s
Total de testes 2 Testes errados 1 Custo total $0.041 Tempo de resposta (médio) 104.1s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/2	111.9s
Total de testes 2 Testes errados 1 Custo total $0.387 Tempo de resposta (médio) 111.9s
#76	Qwen3.5-122B-A10B medium	Qwen	6.4	7.1	$1.046	1/2	313.5s
Total de testes 2 Testes errados 1 Custo total $1.046 Tempo de resposta (médio) 313.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
Total de testes 2 Testes errados 1 Custo total $0.467 Tempo de resposta (médio) 135.7s
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
Total de testes 2 Testes errados 1 Custo total $0.090 Tempo de resposta (médio) 39.4s
#120	Qwen3.5-Flash medium	Qwen	6.4	6.2	$0.139	1/2	266.6s
Total de testes 2 Testes errados 1 Custo total $0.139 Tempo de resposta (médio) 266.6s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.4	6.1	$0.122	1/2	109.7s
Total de testes 2 Testes errados 1 Custo total $0.122 Tempo de resposta (médio) 109.7s
#134	GPT-5 Nano medium	OpenAI	6.4	6.1	$0.114	1/2	146.9s
Total de testes 2 Testes errados 1 Custo total $0.114 Tempo de resposta (médio) 146.9s
#146	Nemotron 3 Super medium	NVIDIA	6.4	5.7	$0.055	1/2	259.9s
Total de testes 2 Testes errados 1 Custo total $0.055 Tempo de resposta (médio) 259.9s

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)