Ranking de Truques anti-IA x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Truques anti-IA, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Laguna Xs.2 1

Motivos de falha

Resposta incorreta293 Não seguiu as instruções33 Formatação extra20 Erro de API14 Sem resposta4 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

32/32

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
Total de testes 4 Testes errados 4 Custo total $0.004 Tempo de resposta (médio) 534ms
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
Total de testes 4 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 755ms
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
Total de testes 4 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 844ms
#193	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
Total de testes 4 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 963ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.052	2/4	1.04s
Total de testes 4 Testes errados 2 Custo total $0.052 Tempo de resposta (médio) 1.04s
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
Total de testes 4 Testes errados 4 Custo total $0.008 Tempo de resposta (médio) 1.07s
#78	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
Total de testes 4 Testes errados 2 Custo total $0.093 Tempo de resposta (médio) 1.12s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
Total de testes 4 Testes errados 4 Custo total $0.021 Tempo de resposta (médio) 1.63s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.115	3/4	2.33s
Total de testes 4 Testes errados 1 Custo total $0.115 Tempo de resposta (médio) 2.33s
#65	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.117	3/4	2.39s
Total de testes 4 Testes errados 1 Custo total $0.117 Tempo de resposta (médio) 2.39s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
Total de testes 4 Testes errados 4 Custo total $0.068 Tempo de resposta (médio) 2.67s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
Total de testes 4 Testes errados 4 Custo total $0.000 Tempo de resposta (médio) 2.78s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
Total de testes 4 Testes errados 4 Custo total $0.025 Tempo de resposta (médio) 3.31s
#54	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
Total de testes 4 Testes errados 2 Custo total $0.571 Tempo de resposta (médio) 3.86s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
Total de testes 4 Testes errados 4 Custo total $0.096 Tempo de resposta (médio) 4.02s

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Truques anti-IA: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado