Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Combinado

5.6

Melhor modelo

Qwen3.6 35B A3B 3.0

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida91 Com motivo de falha Resposta incorreta69 Com motivo de falha Sem resposta32 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
Total de testes 2 Testes errados 1 Custo total $0.090 Tempo de resposta (médio) 39.4s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
Total de testes 1 Testes errados 0 Custo total $0.069 Tempo de resposta (médio) 37.6s
#67	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
Total de testes 2 Testes errados 0 Custo total $0.661 Tempo de resposta (médio) 37.5s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
Total de testes 2 Testes errados 1 Custo total $0.197 Tempo de resposta (médio) 37.2s
#162	Gemma 4 26B A4B none	Google	3.0	5.5	$0.015	0/2	37.2s
Total de testes 2 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 37.2s
#45	Claude Opus 4.8 low	Anthropic	9.9	7.8	$2.077	2/2	36.9s
Total de testes 2 Testes errados 0 Custo total $2.077 Tempo de resposta (médio) 36.9s
#205	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
Total de testes 1 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 35.8s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
Total de testes 2 Testes errados 2 Custo total $0.002 Tempo de resposta (médio) 35.7s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	2/2	35.6s
Total de testes 2 Testes errados 0 Custo total $1.707 Tempo de resposta (médio) 35.6s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 35.0s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	33.5s
Total de testes 2 Testes errados 0 Custo total $4.137 Tempo de resposta (médio) 33.5s
#173	Mistral Small 4 medium	Mistral	3.0	5.1	$0.096	0/2	32.4s
Total de testes 2 Testes errados 2 Custo total $0.096 Tempo de resposta (médio) 32.4s
#57	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
Total de testes 2 Testes errados 0 Custo total $0.138 Tempo de resposta (médio) 32.2s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
Total de testes 2 Testes errados 1 Custo total $0.548 Tempo de resposta (médio) 31.4s
#172	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/2	30.9s
Total de testes 2 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 30.9s

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)