Ranking de Inteligência geral x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.5 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

78/78

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
Total de testes 1 Testes errados 1 Custo total $0.247 Tempo de resposta (médio) 1.12s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
Total de testes 1 Testes errados 1 Custo total $2.044 Tempo de resposta (médio) 45.7s
#145	GLM 5V Turbo none	Z.ai	1	4.6	$0.052	0/1	2.22s
Total de testes 1 Testes errados 1 Custo total $0.052 Tempo de resposta (médio) 2.22s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 58.6s
#147	Mimo V2 PRO none	Xiaomi	1	4.3	$0.045	0/1	2.44s
Total de testes 1 Testes errados 1 Custo total $0.045 Tempo de resposta (médio) 2.44s
#148	Owl Alpha none	Openrouter	1	4.3	$0.000	0/1	4.61s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 4.61s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.0	$0.048	0/1	9.81s
Total de testes 1 Testes errados 1 Custo total $0.048 Tempo de resposta (médio) 9.81s
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
Total de testes 1 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 1.07s
#156	Gemma 4 26B A4B none	Google	1	4.0	$0.015	0/1	3.54s
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 3.54s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	5.0	$0.041	0/1	10.1s
Total de testes 1 Testes errados 1 Custo total $0.041 Tempo de resposta (médio) 10.1s
#162	Ling-2.6-1T none	Inclusionai	1	5.0	$0.016	0/1	20.3s
Total de testes 1 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 20.3s
#167	Mistral Small 4 medium	Mistral	1	4.8	$0.096	0/1	2.05s
Total de testes 1 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 2.05s
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
Total de testes 1 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 552ms
#170	GLM 5 Turbo none	Z.ai	1	4.2	$0.047	0/1	2.18s
Total de testes 1 Testes errados 1 Custo total $0.047 Tempo de resposta (médio) 2.18s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
Total de testes 1 Testes errados 1 Custo total $0.163 Tempo de resposta (médio) 38.7s

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado