Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.1 Flash Lite 2

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#120	Gemini 3.1 Flash Lite minimal	Google	2	6.0	$0.047	1/3	2.15s
Total de testes 3 Testes errados 2 Custo total $0.047 Tempo de resposta (médio) 2.15s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
Total de testes 3 Testes errados 2 Custo total $2.044 Tempo de resposta (médio) 50.8s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
Total de testes 3 Testes errados 3 Custo total $0.061 Tempo de resposta (médio) 1.07s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 24.4s
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
Total de testes 3 Testes errados 1 Custo total $0.920 Tempo de resposta (médio) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
Total de testes 3 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
Total de testes 3 Testes errados 1 Custo total $1.533 Tempo de resposta (médio) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
Total de testes 3 Testes errados 1 Custo total $0.951 Tempo de resposta (médio) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
Total de testes 3 Testes errados 1 Custo total $0.647 Tempo de resposta (médio) 6.60s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
Total de testes 3 Testes errados 2 Custo total $0.237 Tempo de resposta (médio) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
Total de testes 3 Testes errados 2 Custo total $1.006 Tempo de resposta (médio) 10.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
Total de testes 3 Testes errados 2 Custo total $0.970 Tempo de resposta (médio) 33.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
Total de testes 3 Testes errados 1 Custo total $0.234 Tempo de resposta (médio) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
Total de testes 3 Testes errados 1 Custo total $0.042 Tempo de resposta (médio) 26.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Total de testes 3 Testes errados 2 Custo total $0.200 Tempo de resposta (médio) 56.8s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado