Ranking de Truques anti-IA x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Truques anti-IA, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Ring-2.6-1T 1

Motivos de falha

Resposta incorreta293 Não seguiu as instruções33 Formatação extra20 Erro de API14 Sem resposta4 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

32/32

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#179	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
Total de testes 4 Testes errados 1 Custo total $0.026 Tempo de resposta (médio) 43.3s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
Total de testes 4 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 40.3s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
Total de testes 4 Testes errados 2 Custo total $0.010 Tempo de resposta (médio) 32.8s
#190	MiniMax M2.5 medium	Minimax	1	7.9	$0.340	2/4	20.8s
Total de testes 4 Testes errados 2 Custo total $0.340 Tempo de resposta (médio) 20.8s
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
Total de testes 4 Testes errados 3 Custo total $0.166 Tempo de resposta (médio) 15.0s
#47	MiniMax M3 medium	Minimax	1	5.5	$0.286	1/4	14.9s
Total de testes 4 Testes errados 3 Custo total $0.286 Tempo de resposta (médio) 14.9s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
Total de testes 4 Testes errados 2 Custo total $0.237 Tempo de resposta (médio) 13.9s
#178	Ling-2.6-flash none	Inclusionai	1	6.8	$0.002	2/4	11.8s
Total de testes 4 Testes errados 2 Custo total $0.002 Tempo de resposta (médio) 11.8s
#68	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
Total de testes 4 Testes errados 2 Custo total $1.036 Tempo de resposta (médio) 11.6s
#199	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
Total de testes 4 Testes errados 3 Custo total $0.003 Tempo de resposta (médio) 11.1s
#93	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
Total de testes 4 Testes errados 2 Custo total $0.457 Tempo de resposta (médio) 10.8s
#121	gpt-oss-120b medium	OpenAI	1	6.7	$0.019	2/4	10.2s
Total de testes 4 Testes errados 2 Custo total $0.019 Tempo de resposta (médio) 10.2s
#29	Step 3.7 Flash medium	Stepfun	1	8.7	$0.515	3/4	9.65s
Total de testes 4 Testes errados 1 Custo total $0.515 Tempo de resposta (médio) 9.65s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
Total de testes 4 Testes errados 4 Custo total $0.032 Tempo de resposta (médio) 8.64s
#27	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
Total de testes 4 Testes errados 2 Custo total $1.694 Tempo de resposta (médio) 8.60s

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Truques anti-IA: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado