Ranking de Inteligência geral x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

LFM2-24B-A2B 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

78/78

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#210	LFM2-24B-A2B none	Liquid	1	4.0	$0.001	0/1	395ms
Total de testes 1 Testes errados 1 Custo total $0.001 Tempo de resposta (médio) 395ms
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
Total de testes 1 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 541ms
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
Total de testes 1 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 552ms
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
Total de testes 1 Testes errados 1 Custo total $0.030 Tempo de resposta (médio) 628ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
Total de testes 1 Testes errados 1 Custo total $0.052 Tempo de resposta (médio) 741ms
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
Total de testes 1 Testes errados 1 Custo total $0.047 Tempo de resposta (médio) 791ms
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
Total de testes 1 Testes errados 1 Custo total $0.093 Tempo de resposta (médio) 821ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 854ms
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 873ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 920ms
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
Total de testes 1 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 1.07s
#203	Grok 4.1 Fast none	X AI	1	4.4	$0.008	0/1	1.08s
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 1.08s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
Total de testes 1 Testes errados 1 Custo total $0.247 Tempo de resposta (médio) 1.12s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
Total de testes 1 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 1.19s
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
Total de testes 1 Testes errados 1 Custo total $0.041 Tempo de resposta (médio) 1.31s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado