Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.1 Flash Lite 2

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
Total de testes 3 Testes errados 3 Custo total $0.096 Tempo de resposta (médio) 2.17s
#168	MiMo-V2.5 none	Xiaomi	1	5.4	$0.025	1/3	2.13s
Total de testes 3 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 2.13s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
Total de testes 3 Testes errados 3 Custo total $0.021 Tempo de resposta (médio) 621ms
#170	GLM 5 Turbo none	Z.ai	1	5.5	$0.047	1/3	2.65s
Total de testes 3 Testes errados 2 Custo total $0.047 Tempo de resposta (médio) 2.65s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Total de testes 3 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 24.9s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
Total de testes 3 Testes errados 3 Custo total $0.010 Tempo de resposta (médio) 1.21s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
Total de testes 3 Testes errados 2 Custo total $0.016 Tempo de resposta (médio) 1.20s
#177	Nemotron 3 Super none	NVIDIA	1	5.5	$0.008	1/3	2.36s
Total de testes 3 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 2.36s
#178	Ling-2.6-flash none	Inclusionai	1	2.9	$0.002	0/3	6.51s
Total de testes 3 Testes errados 3 Custo total $0.002 Tempo de resposta (médio) 6.51s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
Total de testes 3 Testes errados 1 Custo total $0.026 Tempo de resposta (médio) 31.5s
#180	GPT-5.4 Nano none	OpenAI	1	5.4	$0.041	1/3	1.25s
Total de testes 3 Testes errados 2 Custo total $0.041 Tempo de resposta (médio) 1.25s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.7	$5.599	1/3	5.19s
Total de testes 3 Testes errados 2 Custo total $5.599 Tempo de resposta (médio) 5.19s
#183	Trinity Large Preview none	Arcee AI	1	3.6	$0.008	0/3	1.97s
Total de testes 3 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 1.97s
#184	Hunter Alpha medium	OpenRouter	1	6.1	$0.000	1/3	5.35s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 5.35s
#185	Grok 4.1 Fast medium	X AI	1	5.3	$0.069	1/3	7.40s
Total de testes 3 Testes errados 2 Custo total $0.069 Tempo de resposta (médio) 7.40s

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado