Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Combinado

5.6

Melhor modelo

Gemini 3 PRO Preview 1.5

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida91 Com motivo de falha Resposta incorreta69 Com motivo de falha Sem resposta32 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#179	DeepSeek V3.2 none	DeepSeek	4.8	5.0	$0.054	0/2	113.5s
Total de testes 2 Testes errados 2 Custo total $0.054 Tempo de resposta (médio) 113.5s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
Total de testes 1 Testes errados 0 Custo total $0.043 Tempo de resposta (médio) 75.7s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.187	1/1	52.0s
Total de testes 1 Testes errados 0 Custo total $0.187 Tempo de resposta (médio) 52.0s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
Total de testes 1 Testes errados 0 Custo total $0.307 Tempo de resposta (médio) 29.0s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
Total de testes 1 Testes errados 0 Custo total $0.323 Tempo de resposta (médio) 13.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
Total de testes 1 Testes errados 0 Custo total $0.018 Tempo de resposta (médio) 46.0s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
Total de testes 1 Testes errados 0 Custo total $0.750 Tempo de resposta (médio) 20.9s
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
Total de testes 1 Testes errados 0 Custo total $0.683 Tempo de resposta (médio) 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
Total de testes 1 Testes errados 0 Custo total $0.048 Tempo de resposta (médio) 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
Total de testes 1 Testes errados 0 Custo total $2.044 Tempo de resposta (médio) 149.2s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
Total de testes 1 Testes errados 0 Custo total $0.015 Tempo de resposta (médio) 78.7s
#169	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
Total de testes 1 Testes errados 0 Custo total $2.310 Tempo de resposta (médio) 280.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 35.0s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
Total de testes 1 Testes errados 0 Custo total $0.069 Tempo de resposta (médio) 37.6s
#148	Qwen3.5-122B-A10B none	Qwen	5.2	5.7	$0.247	0/2	129.3s
Total de testes 2 Testes errados 2 Custo total $0.247 Tempo de resposta (médio) 129.3s

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)