Ranking de Inteligência geral x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.5 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

78/78

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	4.0	$0.646	0/1	1.54s
Total de testes 1 Testes errados 1 Custo total $0.646 Tempo de resposta (médio) 1.54s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
Total de testes 1 Testes errados 1 Custo total $0.052 Tempo de resposta (médio) 741ms
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
Total de testes 1 Testes errados 1 Custo total $0.103 Tempo de resposta (médio) 58.3s
#112	Claude Sonnet 5 none	Anthropic	1	4.7	$0.548	0/1	2.81s
Total de testes 1 Testes errados 1 Custo total $0.548 Tempo de resposta (médio) 2.81s
#113	MiMo-V2-Flash medium	Xiaomi	1	4.0	$0.043	0/1	4.20s
Total de testes 1 Testes errados 1 Custo total $0.043 Tempo de resposta (médio) 4.20s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
Total de testes 1 Testes errados 1 Custo total $0.139 Tempo de resposta (médio) 40.1s
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
Total de testes 1 Testes errados 1 Custo total $0.047 Tempo de resposta (médio) 791ms
#121	gpt-oss-120b medium	OpenAI	1	4.3	$0.019	0/1	7.90s
Total de testes 1 Testes errados 1 Custo total $0.019 Tempo de resposta (médio) 7.90s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.8	$0.122	0/1	1.41s
Total de testes 1 Testes errados 1 Custo total $0.122 Tempo de resposta (médio) 1.41s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
Total de testes 1 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 1.19s
#128	GPT-5 Nano medium	OpenAI	1	4.1	$0.114	0/1	17.5s
Total de testes 1 Testes errados 1 Custo total $0.114 Tempo de resposta (médio) 17.5s
#130	Step 3.5 Flash medium	Stepfun	1	5.5	$0.108	0/1	22.4s
Total de testes 1 Testes errados 1 Custo total $0.108 Tempo de resposta (médio) 22.4s
#136	GPT-5.4 Mini none	OpenAI	1	4.8	$0.095	0/1	1.82s
Total de testes 1 Testes errados 1 Custo total $0.095 Tempo de resposta (médio) 1.82s
#138	Kimi K2.6 none	Moonshot AI	1	5.4	$0.184	0/1	1.55s
Total de testes 1 Testes errados 1 Custo total $0.184 Tempo de resposta (médio) 1.55s
#140	Nemotron 3 Super medium	NVIDIA	1	4.1	$0.050	0/1	6.91s
Total de testes 1 Testes errados 1 Custo total $0.050 Tempo de resposta (médio) 6.91s

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado