Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Qwen3.5-27B 1

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
Total de testes 3 Testes errados 1 Custo total $1.627 Tempo de resposta (médio) 59.6s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Total de testes 3 Testes errados 2 Custo total $0.200 Tempo de resposta (médio) 56.8s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
Total de testes 3 Testes errados 2 Custo total $2.044 Tempo de resposta (médio) 50.8s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
Total de testes 3 Testes errados 1 Custo total $2.310 Tempo de resposta (médio) 46.7s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Total de testes 3 Testes errados 2 Custo total $0.600 Tempo de resposta (médio) 43.2s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
Total de testes 3 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 42.5s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
Total de testes 3 Testes errados 2 Custo total $0.751 Tempo de resposta (médio) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Total de testes 3 Testes errados 2 Custo total $0.078 Tempo de resposta (médio) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
Total de testes 3 Testes errados 2 Custo total $0.970 Tempo de resposta (médio) 33.7s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
Total de testes 3 Testes errados 1 Custo total $0.026 Tempo de resposta (médio) 31.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
Total de testes 3 Testes errados 1 Custo total $0.042 Tempo de resposta (médio) 26.1s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Total de testes 3 Testes errados 2 Custo total $1.036 Tempo de resposta (médio) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Total de testes 3 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 24.9s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 24.4s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
Total de testes 3 Testes errados 3 Custo total $0.044 Tempo de resposta (médio) 23.7s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado