Ranking de Truques anti-IA x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Truques anti-IA, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

306

Modelo mais afetado

Seed-2.0-Lite 4

Motivos de falha

Resposta incorreta306 Não seguiu as instruções33 Formatação extra20 Erro de API15 Sem resposta6 Tempo esgotado4

Categorias

Específico do domínio433 Truques anti-IA306 Programação266 Resolução de quebra-cabeças214 Conhecimentos gerais176 Combinado71 Inteligência geral66 Seguimento de instruções65 Análise e extração de dados41 Chamada de ferramentas4

144/144

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#181	Laguna S 2.1 low	Poolside	3	3.4	$0.091	0/4	80.7s
Total de testes 4 Testes errados 4 Custo total $0.091 Tempo de resposta (médio) 80.7s
#183	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
Total de testes 4 Testes errados 3 Custo total $0.010 Tempo de resposta (médio) 1.34s
#185	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
Total de testes 4 Testes errados 3 Custo total $0.016 Tempo de resposta (médio) 5.51s
#186	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
Total de testes 4 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 4.46s
#191	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
Total de testes 4 Testes errados 3 Custo total $0.067 Tempo de resposta (médio) 2.68s
#196	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
Total de testes 4 Testes errados 4 Custo total $0.032 Tempo de resposta (médio) 8.64s
#202	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
Total de testes 4 Testes errados 4 Custo total $0.009 Tempo de resposta (médio) 705ms
#207	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
Total de testes 4 Testes errados 3 Custo total $0.057 Tempo de resposta (médio) 501ms
#213	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
Total de testes 4 Testes errados 4 Custo total $0.008 Tempo de resposta (médio) 1.07s
#220	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
Total de testes 3 Testes errados 3 Custo total $0.001 Tempo de resposta (médio) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
Total de testes 4 Testes errados 2 Custo total $0.647 Tempo de resposta (médio) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
Total de testes 4 Testes errados 3 Custo total $0.200 Tempo de resposta (médio) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
Total de testes 4 Testes errados 3 Custo total $0.286 Tempo de resposta (médio) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
Total de testes 4 Testes errados 2 Custo total $0.740 Tempo de resposta (médio) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
Total de testes 4 Testes errados 2 Custo total $0.197 Tempo de resposta (médio) 1.08s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Truques anti-IA: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado