Ranking de Truques anti-IA x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Truques anti-IA, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

293

Modelo mais afetado

Seed-2.0-Lite 4

Motivos de falha

Resposta incorreta293 Não seguiu as instruções33 Formatação extra20 Erro de API14 Sem resposta4 Tempo esgotado4

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

140/140

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
Total de testes 4 Testes errados 4 Custo total $0.066 Tempo de resposta (médio) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
Total de testes 4 Testes errados 4 Custo total $0.017 Tempo de resposta (médio) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
Total de testes 4 Testes errados 4 Custo total $0.062 Tempo de resposta (médio) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
Total de testes 4 Testes errados 4 Custo total $0.073 Tempo de resposta (médio) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
Total de testes 4 Testes errados 4 Custo total $0.106 Tempo de resposta (médio) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
Total de testes 4 Testes errados 4 Custo total $0.095 Tempo de resposta (médio) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
Total de testes 4 Testes errados 4 Custo total $0.095 Tempo de resposta (médio) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
Total de testes 4 Testes errados 4 Custo total $0.397 Tempo de resposta (médio) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
Total de testes 4 Testes errados 4 Custo total $0.045 Tempo de resposta (médio) 1.80s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
Total de testes 4 Testes errados 4 Custo total $0.044 Tempo de resposta (médio) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
Total de testes 4 Testes errados 4 Custo total $0.164 Tempo de resposta (médio) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
Total de testes 4 Testes errados 4 Custo total $0.087 Tempo de resposta (médio) 2.83s
#155	Kimi K2.5 none	Moonshot AI	4	3.6	$0.127	0/4	6.24s
Total de testes 4 Testes errados 4 Custo total $0.127 Tempo de resposta (médio) 6.24s
#161	Qwen3.6 35B A3B none	Qwen	4	3.6	$0.061	0/4	2.10s
Total de testes 4 Testes errados 4 Custo total $0.061 Tempo de resposta (médio) 2.10s
#162	Ling-2.6-1T none	Inclusionai	4	3.4	$0.016	0/4	6.55s
Total de testes 4 Testes errados 4 Custo total $0.016 Tempo de resposta (médio) 6.55s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Truques anti-IA: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado