Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

Média de Pontuação de Combinado

5.6

Melhor modelo

Gemini 3.6 Flash 10.0

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida91 Com motivo de falha Resposta incorreta69 Com motivo de falha Sem resposta32 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
Total de testes 1 Testes errados 0 Custo total $0.683 Tempo de resposta (médio) 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
Total de testes 1 Testes errados 0 Custo total $0.048 Tempo de resposta (médio) 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
Total de testes 1 Testes errados 0 Custo total $2.044 Tempo de resposta (médio) 149.2s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
Total de testes 1 Testes errados 0 Custo total $0.015 Tempo de resposta (médio) 78.7s
#169	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
Total de testes 1 Testes errados 0 Custo total $2.310 Tempo de resposta (médio) 280.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 35.0s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
Total de testes 1 Testes errados 0 Custo total $0.069 Tempo de resposta (médio) 37.6s
#4	Gemini 3.5 Flash high	Google	8.2	9.5	$1.976	1/2	84.1s
Total de testes 2 Testes errados 1 Custo total $1.976 Tempo de resposta (médio) 84.1s
#11	Qwen3.7 Max medium	Qwen	8.7	9.2	$1.116	1/2	287.8s
Total de testes 2 Testes errados 1 Custo total $1.116 Tempo de resposta (médio) 287.8s
#14	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
Total de testes 2 Testes errados 1 Custo total $0.433 Tempo de resposta (médio) 30.0s
#19	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
Total de testes 2 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 42.6s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
Total de testes 2 Testes errados 1 Custo total $3.478 Tempo de resposta (médio) 27.5s
#22	Qwen3.6 Max Preview medium	Qwen	7.3	8.4	$1.143	1/2	177.5s
Total de testes 2 Testes errados 1 Custo total $1.143 Tempo de resposta (médio) 177.5s
#23	Grok 4.5 low	X AI	6.5	8.4	$0.935	1/2	12.8s
Total de testes 2 Testes errados 1 Custo total $0.935 Tempo de resposta (médio) 12.8s
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
Total de testes 2 Testes errados 1 Custo total $0.922 Tempo de resposta (médio) 51.9s

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)