Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↑.

Modelos exibidos

Média de Pontuação de Combinado

5.6

Melhor modelo

Muse Spark 1.1 5.9

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida91 Com motivo de falha Resposta incorreta69 Com motivo de falha Sem resposta32 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
Total de testes 2 Testes errados 1 Custo total $0.467 Tempo de resposta (médio) 135.7s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
Total de testes 2 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 71.6s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
Total de testes 2 Testes errados 1 Custo total $0.524 Tempo de resposta (médio) 8.37s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
Total de testes 2 Testes errados 1 Custo total $0.187 Tempo de resposta (médio) 125.4s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
Total de testes 2 Testes errados 1 Custo total $0.738 Tempo de resposta (médio) 299.2s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
Total de testes 2 Testes errados 1 Custo total $1.207 Tempo de resposta (médio) 41.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
Total de testes 2 Testes errados 1 Custo total $0.544 Tempo de resposta (médio) 8.90s
#95	Gemini 3.5 Flash-Lite low	Google	6.3	6.7	$0.145	1/2	8.96s
Total de testes 2 Testes errados 1 Custo total $0.145 Tempo de resposta (médio) 8.96s
#100	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
Total de testes 2 Testes errados 1 Custo total $0.089 Tempo de resposta (médio) 492.9s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
Total de testes 2 Testes errados 1 Custo total $0.128 Tempo de resposta (médio) 50.2s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
Total de testes 2 Testes errados 1 Custo total $0.231 Tempo de resposta (médio) 61.6s
#107	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
Total de testes 2 Testes errados 1 Custo total $0.082 Tempo de resposta (médio) 78.0s
#108	Laguna XS 2.1 medium	Poolside	6.3	6.5	$0.068	1/2	218.1s
Total de testes 2 Testes errados 1 Custo total $0.068 Tempo de resposta (médio) 218.1s
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
Total de testes 2 Testes errados 1 Custo total $0.090 Tempo de resposta (médio) 39.4s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
Total de testes 2 Testes errados 1 Custo total $0.073 Tempo de resposta (médio) 64.8s

←

1 9 10 11 15

→

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)