Ranking de modelos de Combinado

Veja quais modelos de IA vão melhor em Combinado, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Combinado

5.5

Melhor modelo

Gemini 3.5 Flash 3.0

Motivos de falha

Com motivo de falha Chamada de ferramenta inválida96 Com motivo de falha Resposta incorreta71 Com motivo de falha Sem resposta33 Com motivo de falha Erro de API26 Com motivo de falha Tempo esgotado5 Com motivo de falha Formatação extra1 Com motivo de falha Não seguiu as instruções1

220/220

Posição	Modelo	Empresa	Pontuação de Combinado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#209	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
Total de testes 1 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 35.8s
#45	Claude Opus 4.8 low	Anthropic	9.9	7.8	$2.077	2/2	36.9s
Total de testes 2 Testes errados 0 Custo total $2.077 Tempo de resposta (médio) 36.9s
#162	Gemma 4 26B A4B none	Google	3.0	5.5	$0.015	0/2	37.2s
Total de testes 2 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 37.2s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
Total de testes 2 Testes errados 1 Custo total $0.197 Tempo de resposta (médio) 37.2s
#67	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
Total de testes 2 Testes errados 0 Custo total $0.661 Tempo de resposta (médio) 37.5s
#194	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
Total de testes 1 Testes errados 0 Custo total $0.069 Tempo de resposta (médio) 37.6s
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
Total de testes 2 Testes errados 1 Custo total $0.090 Tempo de resposta (médio) 39.4s
#169	Qwen3.6 35B A3B none	Qwen	3.8	5.3	$0.061	0/2	39.5s
Total de testes 2 Testes errados 2 Custo total $0.061 Tempo de resposta (médio) 39.5s
#10	Gemini 3.1 Pro Preview medium	Google	9.8	9.2	$1.361	2/2	40.4s
Total de testes 2 Testes errados 0 Custo total $1.361 Tempo de resposta (médio) 40.4s
#36	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
Total de testes 2 Testes errados 1 Custo total $0.391 Tempo de resposta (médio) 41.2s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
Total de testes 2 Testes errados 1 Custo total $1.207 Tempo de resposta (médio) 41.2s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	2/2	42.1s
Total de testes 2 Testes errados 0 Custo total $0.831 Tempo de resposta (médio) 42.1s
#79	Grok 4.20 medium	X AI	8.7	7.1	$0.777	1/2	42.2s
Total de testes 2 Testes errados 1 Custo total $0.777 Tempo de resposta (médio) 42.2s
#19	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
Total de testes 2 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 42.6s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	43.4s
Total de testes 2 Testes errados 0 Custo total $1.477 Tempo de resposta (médio) 43.4s

Ranking de Combinado

Filtrar modelos

Melhores modelos por Pontuação de Combinado

Pontuação de Combinado vs custo total

Melhores modelos por Tempo de resposta (médio)