Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.1 Flash Lite 2

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
Total de testes 3 Testes errados 1 Custo total $0.323 Tempo de resposta (médio) 5.23s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
Total de testes 3 Testes errados 2 Custo total $0.751 Tempo de resposta (médio) 41.0s
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
Total de testes 3 Testes errados 3 Custo total $0.138 Tempo de resposta (médio) 3.79s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
Total de testes 3 Testes errados 1 Custo total $0.756 Tempo de resposta (médio) 4.37s
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
Total de testes 3 Testes errados 1 Custo total $1.627 Tempo de resposta (médio) 59.6s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Total de testes 3 Testes errados 2 Custo total $1.036 Tempo de resposta (médio) 25.1s
#73	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
Total de testes 3 Testes errados 2 Custo total $0.779 Tempo de resposta (médio) 22.5s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Total de testes 3 Testes errados 2 Custo total $0.078 Tempo de resposta (médio) 37.7s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Total de testes 3 Testes errados 2 Custo total $0.600 Tempo de resposta (médio) 43.2s
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Total de testes 3 Testes errados 2 Custo total $0.093 Tempo de resposta (médio) 949ms
#84	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
Total de testes 3 Testes errados 2 Custo total $0.187 Tempo de resposta (médio) 5.31s
#85	Qwen3.6 Flash medium	Qwen	1	8.2	$0.738	2/3	6.29s
Total de testes 3 Testes errados 1 Custo total $0.738 Tempo de resposta (médio) 6.29s
#91	LongCat 2.0 low	Meituan	1	3.1	$0.391	0/3	8.15s
Total de testes 3 Testes errados 3 Custo total $0.391 Tempo de resposta (médio) 8.15s
#97	LongCat 2.0 high	Meituan	1	3.1	$0.469	0/3	9.18s
Total de testes 3 Testes errados 3 Custo total $0.469 Tempo de resposta (médio) 9.18s
#100	Hy3 preview medium	Tencent	1	7.7	$0.018	2/3	11.1s
Total de testes 3 Testes errados 1 Custo total $0.018 Tempo de resposta (médio) 11.1s

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado