Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças.

Modelos exibidos

Média de Pontuação de Combinado

5.5

Melhor modelo

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida91 Com motivo de falha Resposta incorreta68 Com motivo de falha Sem resposta29 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

210/210

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#53	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
Total de testes 2 Testes errados 0 Custo total $0.138 Tempo de resposta (médio) 32.2s
#7	Gemini 3.1 Pro Preview medium	Google	9.8	9.2	$1.361	2/2	40.4s
Total de testes 2 Testes errados 0 Custo total $1.361 Tempo de resposta (médio) 40.4s
#63	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
Total de testes 2 Testes errados 0 Custo total $0.661 Tempo de resposta (médio) 37.5s
#66	Claude Opus 4.8 none	Anthropic	9.8	7.3	$1.166	2/2	26.4s
Total de testes 2 Testes errados 0 Custo total $1.166 Tempo de resposta (médio) 26.4s
#74	GLM 5.1 medium	Z.ai	9.8	7.1	$0.535	2/2	175.9s
Total de testes 2 Testes errados 0 Custo total $0.535 Tempo de resposta (médio) 175.9s
#8	Qwen3.7 Max medium	Qwen	8.7	9.2	$1.116	1/2	287.8s
Total de testes 2 Testes errados 1 Custo total $1.116 Tempo de resposta (médio) 287.8s
#34	GPT-5.6 Terra high	OpenAI	8.7	8.0	$1.055	1/2	13.7s
Total de testes 2 Testes errados 1 Custo total $1.055 Tempo de resposta (médio) 13.7s
#55	GPT-5.6 Terra low	OpenAI	8.7	7.5	$0.519	1/2	9.68s
Total de testes 2 Testes errados 1 Custo total $0.519 Tempo de resposta (médio) 9.68s
#75	Grok 4.20 medium	X AI	8.7	7.1	$0.777	1/2	42.2s
Total de testes 2 Testes errados 1 Custo total $0.777 Tempo de resposta (médio) 42.2s
#86	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
Total de testes 2 Testes errados 1 Custo total $1.207 Tempo de resposta (médio) 41.2s
#101	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
Total de testes 2 Testes errados 1 Custo total $0.082 Tempo de resposta (médio) 78.0s
#16	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
Total de testes 2 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 42.6s
#2	Gemini 3.5 Flash high	Google	8.2	9.5	$1.976	1/2	84.1s
Total de testes 2 Testes errados 1 Custo total $1.976 Tempo de resposta (médio) 84.1s
#11	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
Total de testes 2 Testes errados 1 Custo total $0.433 Tempo de resposta (médio) 30.0s
#36	Qwen3.7 Plus medium	Qwen	8.2	7.9	$0.267	1/2	190.3s
Total de testes 2 Testes errados 1 Custo total $0.267 Tempo de resposta (médio) 190.3s

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)