Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

Média de Pontuação de Combinado

5.6

Melhor modelo

Gemini 3.6 Flash 10.0

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida91 Com motivo de falha Resposta incorreta69 Com motivo de falha Sem resposta32 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
Total de testes 2 Testes errados 1 Custo total $0.078 Tempo de resposta (médio) 79.9s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
Total de testes 2 Testes errados 1 Custo total $0.600 Tempo de resposta (médio) 89.2s
#82	Mercury 2 medium	Inception	6.7	7.0	$0.093	1/2	7.84s
Total de testes 2 Testes errados 1 Custo total $0.093 Tempo de resposta (médio) 7.84s
#84	Seed-2.0-Mini medium	Bytedance Seed	7.3	7.0	$0.101	1/2	282.3s
Total de testes 2 Testes errados 1 Custo total $0.101 Tempo de resposta (médio) 282.3s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
Total de testes 2 Testes errados 1 Custo total $0.467 Tempo de resposta (médio) 135.7s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
Total de testes 2 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 71.6s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
Total de testes 2 Testes errados 1 Custo total $0.524 Tempo de resposta (médio) 8.37s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
Total de testes 2 Testes errados 1 Custo total $0.187 Tempo de resposta (médio) 125.4s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
Total de testes 2 Testes errados 1 Custo total $0.738 Tempo de resposta (médio) 299.2s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
Total de testes 2 Testes errados 1 Custo total $1.207 Tempo de resposta (médio) 41.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
Total de testes 2 Testes errados 1 Custo total $0.544 Tempo de resposta (médio) 8.90s
#95	Gemini 3.5 Flash-Lite low	Google	6.3	6.7	$0.145	1/2	8.96s
Total de testes 2 Testes errados 1 Custo total $0.145 Tempo de resposta (médio) 8.96s
#100	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
Total de testes 2 Testes errados 1 Custo total $0.089 Tempo de resposta (médio) 492.9s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
Total de testes 2 Testes errados 1 Custo total $0.128 Tempo de resposta (médio) 50.2s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
Total de testes 2 Testes errados 1 Custo total $0.231 Tempo de resposta (médio) 61.6s

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)