Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

GPT-5.3-Codex 1

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
Total de testes 3 Testes errados 1 Custo total $0.920 Tempo de resposta (médio) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
Total de testes 3 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
Total de testes 3 Testes errados 1 Custo total $1.533 Tempo de resposta (médio) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
Total de testes 3 Testes errados 1 Custo total $0.951 Tempo de resposta (médio) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
Total de testes 3 Testes errados 1 Custo total $0.647 Tempo de resposta (médio) 6.60s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
Total de testes 3 Testes errados 2 Custo total $0.237 Tempo de resposta (médio) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
Total de testes 3 Testes errados 2 Custo total $1.006 Tempo de resposta (médio) 10.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
Total de testes 3 Testes errados 2 Custo total $0.970 Tempo de resposta (médio) 33.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
Total de testes 3 Testes errados 1 Custo total $0.234 Tempo de resposta (médio) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
Total de testes 3 Testes errados 1 Custo total $0.042 Tempo de resposta (médio) 26.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Total de testes 3 Testes errados 2 Custo total $0.200 Tempo de resposta (médio) 56.8s
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
Total de testes 3 Testes errados 1 Custo total $0.323 Tempo de resposta (médio) 5.23s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
Total de testes 3 Testes errados 2 Custo total $0.751 Tempo de resposta (médio) 41.0s
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
Total de testes 3 Testes errados 3 Custo total $0.138 Tempo de resposta (médio) 3.79s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
Total de testes 3 Testes errados 1 Custo total $0.756 Tempo de resposta (médio) 4.37s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado