Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

GPT-5.3-Codex 1

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
Total de testes 3 Testes errados 1 Custo total $0.920 Tempo de resposta (médio) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
Total de testes 3 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
Total de testes 3 Testes errados 1 Custo total $1.533 Tempo de resposta (médio) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
Total de testes 3 Testes errados 1 Custo total $0.951 Tempo de resposta (médio) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
Total de testes 3 Testes errados 1 Custo total $0.647 Tempo de resposta (médio) 6.60s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
Total de testes 3 Testes errados 1 Custo total $0.234 Tempo de resposta (médio) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
Total de testes 3 Testes errados 1 Custo total $0.042 Tempo de resposta (médio) 26.1s
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
Total de testes 3 Testes errados 1 Custo total $0.323 Tempo de resposta (médio) 5.23s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
Total de testes 3 Testes errados 1 Custo total $0.756 Tempo de resposta (médio) 4.37s
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
Total de testes 3 Testes errados 1 Custo total $1.627 Tempo de resposta (médio) 59.6s
#85	Qwen3.6 Flash medium	Qwen	1	8.2	$0.738	2/3	6.29s
Total de testes 3 Testes errados 1 Custo total $0.738 Tempo de resposta (médio) 6.29s
#100	Hy3 preview medium	Tencent	1	7.7	$0.018	2/3	11.1s
Total de testes 3 Testes errados 1 Custo total $0.018 Tempo de resposta (médio) 11.1s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
Total de testes 3 Testes errados 1 Custo total $2.310 Tempo de resposta (médio) 46.7s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
Total de testes 3 Testes errados 1 Custo total $0.026 Tempo de resposta (médio) 31.5s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
Total de testes 3 Testes errados 2 Custo total $0.237 Tempo de resposta (médio) 15.2s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado