Ranking de Inteligência geral x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.5 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

78/78

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
Total de testes 1 Testes errados 1 Custo total $0.041 Tempo de resposta (médio) 1.31s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	5.8	$5.599	0/1	6.40s
Total de testes 1 Testes errados 1 Custo total $5.599 Tempo de resposta (médio) 6.40s
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 873ms
#184	Hunter Alpha medium	OpenRouter	1	7.0	$0.000	0/1	6.44s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 6.44s
#185	Grok 4.1 Fast medium	X AI	1	4.2	$0.069	0/1	16.2s
Total de testes 1 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 16.2s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	0/1	1.39s
Total de testes 1 Testes errados 1 Custo total $0.032 Tempo de resposta (médio) 1.39s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 23.2s
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
Total de testes 1 Testes errados 1 Custo total $0.030 Tempo de resposta (médio) 628ms
#190	MiniMax M2.5 medium	Minimax	1	3.8	$0.340	0/1	6.63s
Total de testes 1 Testes errados 1 Custo total $0.340 Tempo de resposta (médio) 6.63s
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
Total de testes 1 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 541ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 854ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 920ms
#196	Hunter Alpha none	OpenRouter	1	6.1	$0.000	0/1	2.71s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.71s
#199	Hy3 preview none	Tencent	1	4.1	$0.003	0/1	16.1s
Total de testes 1 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 16.1s
#200	MiMo-V2-Flash none	Xiaomi	1	4.6	$0.025	0/1	1.67s
Total de testes 1 Testes errados 1 Custo total $0.025 Tempo de resposta (médio) 1.67s

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado