Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.1 Flash Lite 2

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#139	GPT-5.4 none	OpenAI	1	5.6	$0.397	1/3	1.44s
Total de testes 3 Testes errados 2 Custo total $0.397 Tempo de resposta (médio) 1.44s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
Total de testes 3 Testes errados 3 Custo total $0.050 Tempo de resposta (médio) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
Total de testes 3 Testes errados 3 Custo total $0.247 Tempo de resposta (médio) 1.00s
#145	GLM 5V Turbo none	Z.ai	1	5.3	$0.052	1/3	2.40s
Total de testes 3 Testes errados 2 Custo total $0.052 Tempo de resposta (médio) 2.40s
#146	Owl Alpha medium	Openrouter	1	5.3	$0.000	1/3	3.40s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 3.40s
#147	Mimo V2 PRO none	Xiaomi	1	6.0	$0.045	1/3	1.61s
Total de testes 3 Testes errados 2 Custo total $0.045 Tempo de resposta (médio) 1.61s
#148	Owl Alpha none	Openrouter	1	5.4	$0.000	1/3	4.18s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 4.18s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
Total de testes 3 Testes errados 3 Custo total $0.044 Tempo de resposta (médio) 23.7s
#152	Qwen3.6 27B none	Qwen	1	5.3	$0.087	1/3	5.15s
Total de testes 3 Testes errados 2 Custo total $0.087 Tempo de resposta (médio) 5.15s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.7	$0.068	1/3	1.30s
Total de testes 3 Testes errados 2 Custo total $0.068 Tempo de resposta (médio) 1.30s
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
Total de testes 3 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 744ms
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 1.57s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
Total de testes 3 Testes errados 3 Custo total $0.016 Tempo de resposta (médio) 5.36s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
Total de testes 3 Testes errados 1 Custo total $2.310 Tempo de resposta (médio) 46.7s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
Total de testes 3 Testes errados 3 Custo total $0.022 Tempo de resposta (médio) 399ms

←

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado