Ranking de Truques anti-IA x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Truques anti-IA, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

293

Modelo mais afetado

Seed-2.0-Mini 1

Motivos de falha

Resposta incorreta293 Não seguiu as instruções33 Formatação extra20 Erro de API14 Sem resposta4 Tempo esgotado4

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

140/140

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#80	Seed-2.0-Mini medium	Bytedance Seed	1	6.6	$0.101	2/4	74.7s
Total de testes 4 Testes errados 2 Custo total $0.101 Tempo de resposta (médio) 74.7s
#77	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
Total de testes 4 Testes errados 2 Custo total $0.600 Tempo de resposta (médio) 51.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
Total de testes 4 Testes errados 1 Custo total $0.437 Tempo de resposta (médio) 45.8s
#102	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
Total de testes 4 Testes errados 3 Custo total $0.068 Tempo de resposta (médio) 42.0s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
Total de testes 4 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 40.3s
#143	Gemini 3.1 Flash Lite high	Google	1	8.7	$2.044	3/4	37.2s
Total de testes 4 Testes errados 1 Custo total $2.044 Tempo de resposta (médio) 37.2s
#204	Qwen3.5-9B medium	Qwen	1	5.1	$0.036	1/4	34.4s
Total de testes 4 Testes errados 3 Custo total $0.036 Tempo de resposta (médio) 34.4s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
Total de testes 4 Testes errados 2 Custo total $0.010 Tempo de resposta (médio) 32.8s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.042	3/4	28.5s
Total de testes 4 Testes errados 1 Custo total $0.042 Tempo de resposta (médio) 28.5s
#46	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
Total de testes 4 Testes errados 3 Custo total $0.200 Tempo de resposta (médio) 25.7s
#128	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
Total de testes 4 Testes errados 2 Custo total $0.114 Tempo de resposta (médio) 25.5s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
Total de testes 4 Testes errados 4 Custo total $0.000 Tempo de resposta (médio) 22.5s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
Total de testes 4 Testes errados 4 Custo total $0.044 Tempo de resposta (médio) 20.2s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
Total de testes 4 Testes errados 1 Custo total $0.234 Tempo de resposta (médio) 18.0s
#194	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
Total de testes 4 Testes errados 3 Custo total $0.166 Tempo de resposta (médio) 15.0s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Truques anti-IA: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado