Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.1 Flash Lite 2

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#103	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
Total de testes 3 Testes errados 2 Custo total $0.090 Tempo de resposta (médio) 1.38s
#108	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
Total de testes 3 Testes errados 2 Custo total $0.103 Tempo de resposta (médio) 20.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
Total de testes 3 Testes errados 2 Custo total $0.333 Tempo de resposta (médio) 5.08s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/3	4.23s
Total de testes 3 Testes errados 2 Custo total $0.035 Tempo de resposta (médio) 4.23s
#121	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
Total de testes 3 Testes errados 2 Custo total $0.019 Tempo de resposta (médio) 21.7s
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
Total de testes 3 Testes errados 2 Custo total $0.046 Tempo de resposta (médio) 720ms
#123	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
Total de testes 3 Testes errados 2 Custo total $0.187 Tempo de resposta (médio) 2.97s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
Total de testes 3 Testes errados 3 Custo total $0.062 Tempo de resposta (médio) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
Total de testes 3 Testes errados 3 Custo total $0.106 Tempo de resposta (médio) 1.35s
#128	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
Total de testes 3 Testes errados 2 Custo total $0.114 Tempo de resposta (médio) 20.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
Total de testes 3 Testes errados 2 Custo total $0.095 Tempo de resposta (médio) 1.06s
#130	Step 3.5 Flash medium	Stepfun	1	5.3	$0.108	1/3	7.22s
Total de testes 3 Testes errados 2 Custo total $0.108 Tempo de resposta (médio) 7.22s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	1/3	2.38s
Total de testes 3 Testes errados 2 Custo total $0.683 Tempo de resposta (médio) 2.38s
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
Total de testes 3 Testes errados 2 Custo total $0.095 Tempo de resposta (médio) 836ms
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
Total de testes 3 Testes errados 3 Custo total $0.184 Tempo de resposta (médio) 1.40s

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado