Ranking de Inteligência geral x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.5 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

78/78

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
Total de testes 1 Testes errados 1 Custo total $0.756 Tempo de resposta (médio) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
Total de testes 1 Testes errados 1 Custo total $1.627 Tempo de resposta (médio) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
Total de testes 1 Testes errados 1 Custo total $0.661 Tempo de resposta (médio) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
Total de testes 1 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
Total de testes 1 Testes errados 1 Custo total $0.779 Tempo de resposta (médio) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
Total de testes 1 Testes errados 1 Custo total $0.777 Tempo de resposta (médio) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
Total de testes 1 Testes errados 1 Custo total $0.600 Tempo de resposta (médio) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
Total de testes 1 Testes errados 1 Custo total $0.093 Tempo de resposta (médio) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
Total de testes 1 Testes errados 1 Custo total $0.101 Tempo de resposta (médio) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
Total de testes 1 Testes errados 1 Custo total $0.467 Tempo de resposta (médio) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
Total de testes 1 Testes errados 1 Custo total $0.187 Tempo de resposta (médio) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
Total de testes 1 Testes errados 1 Custo total $0.746 Tempo de resposta (médio) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
Total de testes 1 Testes errados 1 Custo total $0.779 Tempo de resposta (médio) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
Total de testes 1 Testes errados 1 Custo total $0.082 Tempo de resposta (médio) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
Total de testes 1 Testes errados 1 Custo total $0.090 Tempo de resposta (médio) 2.51s

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado