Ranking de Inteligência geral x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.5 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

59/59

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
Total de testes 1 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
Total de testes 1 Testes errados 1 Custo total $0.524 Tempo de resposta (médio) 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
Total de testes 1 Testes errados 1 Custo total $0.738 Tempo de resposta (médio) 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
Total de testes 1 Testes errados 1 Custo total $1.207 Tempo de resposta (médio) 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
Total de testes 1 Testes errados 1 Custo total $0.391 Tempo de resposta (médio) 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
Total de testes 1 Testes errados 1 Custo total $0.476 Tempo de resposta (médio) 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
Total de testes 1 Testes errados 1 Custo total $0.151 Tempo de resposta (médio) 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
Total de testes 1 Testes errados 1 Custo total $0.469 Tempo de resposta (médio) 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
Total de testes 1 Testes errados 1 Custo total $0.231 Tempo de resposta (médio) 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
Total de testes 1 Testes errados 1 Custo total $0.068 Tempo de resposta (médio) 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
Total de testes 1 Testes errados 1 Custo total $0.621 Tempo de resposta (médio) 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
Total de testes 1 Testes errados 1 Custo total $0.073 Tempo de resposta (médio) 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
Total de testes 1 Testes errados 1 Custo total $0.044 Tempo de resposta (médio) 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
Total de testes 1 Testes errados 1 Custo total $0.249 Tempo de resposta (médio) 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
Total de testes 1 Testes errados 1 Custo total $0.017 Tempo de resposta (médio) 615ms

←

1 2 3 4

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado