Ranking de Inteligência geral x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Inteligência geral, para identificar pontos fracos mais rápido. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.5 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

59/59

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#20	Grok 4.5 low	X AI	1	6.1	$0.935	0/1	4.88s
Total de testes 1 Testes errados 1 Custo total $0.935 Tempo de resposta (médio) 4.88s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
Total de testes 1 Testes errados 1 Custo total $1.928 Tempo de resposta (médio) 12.8s
#29	Step 3.7 Flash medium	Stepfun	1	4.0	$0.515	0/1	6.85s
Total de testes 1 Testes errados 1 Custo total $0.515 Tempo de resposta (médio) 6.85s
#34	GPT-5.6 Terra high	OpenAI	1	5.1	$1.055	0/1	3.03s
Total de testes 1 Testes errados 1 Custo total $1.055 Tempo de resposta (médio) 3.03s
#39	GPT-5.6 Terra medium	OpenAI	1	5.5	$0.676	0/1	2.37s
Total de testes 1 Testes errados 1 Custo total $0.676 Tempo de resposta (médio) 2.37s
#44	GPT-5.6 Luna high	OpenAI	1	5.0	$1.017	0/1	3.65s
Total de testes 1 Testes errados 1 Custo total $1.017 Tempo de resposta (médio) 3.65s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
Total de testes 1 Testes errados 1 Custo total $1.097 Tempo de resposta (médio) 18.4s
#49	GLM 5 Turbo medium	Z.ai	1	6.1	$0.323	0/1	10.1s
Total de testes 1 Testes errados 1 Custo total $0.323 Tempo de resposta (médio) 10.1s
#50	GPT-5.6 Luna medium	OpenAI	1	5.1	$0.352	0/1	4.34s
Total de testes 1 Testes errados 1 Custo total $0.352 Tempo de resposta (médio) 4.34s
#55	GPT-5.6 Terra low	OpenAI	1	4.8	$0.519	0/1	3.52s
Total de testes 1 Testes errados 1 Custo total $0.519 Tempo de resposta (médio) 3.52s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
Total de testes 1 Testes errados 1 Custo total $0.478 Tempo de resposta (médio) 16.4s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	4.1	$0.387	0/1	2.32s
Total de testes 1 Testes errados 1 Custo total $0.387 Tempo de resposta (médio) 2.32s
#67	Step 3.7 Flash low	Stepfun	1	3.4	$0.454	0/1	7.00s
Total de testes 1 Testes errados 1 Custo total $0.454 Tempo de resposta (médio) 7.00s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	5.1	$0.482	0/1	3.27s
Total de testes 1 Testes errados 1 Custo total $0.482 Tempo de resposta (médio) 3.27s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
Total de testes 1 Testes errados 1 Custo total $0.317 Tempo de resposta (médio) 25.3s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado