Ranking de Inteligência geral x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.5 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

78/78

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#12	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
Total de testes 1 Testes errados 1 Custo total $1.707 Tempo de resposta (médio) 9.82s
#13	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
Total de testes 1 Testes errados 1 Custo total $0.920 Tempo de resposta (médio) 4.87s
#18	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
Total de testes 1 Testes errados 1 Custo total $1.533 Tempo de resposta (médio) 4.92s
#21	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
Total de testes 1 Testes errados 1 Custo total $0.951 Tempo de resposta (médio) 4.32s
#23	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
Total de testes 1 Testes errados 1 Custo total $0.922 Tempo de resposta (médio) 4.32s
#25	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
Total de testes 1 Testes errados 1 Custo total $0.643 Tempo de resposta (médio) 4.86s
#26	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
Total de testes 1 Testes errados 1 Custo total $0.237 Tempo de resposta (médio) 13.5s
#30	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
Total de testes 1 Testes errados 1 Custo total $0.604 Tempo de resposta (médio) 3.20s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
Total de testes 1 Testes errados 1 Custo total $0.234 Tempo de resposta (médio) 18.2s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
Total de testes 1 Testes errados 1 Custo total $0.405 Tempo de resposta (médio) 27.1s
#42	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
Total de testes 1 Testes errados 1 Custo total $0.307 Tempo de resposta (médio) 14.7s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
Total de testes 1 Testes errados 1 Custo total $0.042 Tempo de resposta (médio) 25.2s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
Total de testes 1 Testes errados 1 Custo total $0.286 Tempo de resposta (médio) 33.3s
#53	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
Total de testes 1 Testes errados 1 Custo total $0.138 Tempo de resposta (médio) 4.15s
#54	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
Total de testes 1 Testes errados 1 Custo total $0.571 Tempo de resposta (médio) 1.99s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado