Ranking de Resolução de quebra-cabeças x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Mistral Small 4 1

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

86/86

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
Total de testes 3 Testes errados 3 Custo total $0.022 Tempo de resposta (médio) 399ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 532ms
#201	Granite 4.1 8B none	IBM Granite	1	3.2	$0.007	0/3	608ms
Total de testes 3 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 608ms
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
Total de testes 3 Testes errados 3 Custo total $0.021 Tempo de resposta (médio) 621ms
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
Total de testes 3 Testes errados 2 Custo total $0.046 Tempo de resposta (médio) 720ms
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
Total de testes 3 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 744ms
#193	Elephant Alpha none	Openrouter	1	4.2	$0.000	0/3	807ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 807ms
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
Total de testes 3 Testes errados 2 Custo total $0.095 Tempo de resposta (médio) 836ms
#195	Elephant Alpha medium	Openrouter	1	5.3	$0.000	1/3	868ms
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 868ms
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Total de testes 3 Testes errados 2 Custo total $0.093 Tempo de resposta (médio) 949ms
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
Total de testes 3 Testes errados 3 Custo total $0.247 Tempo de resposta (médio) 1.00s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
Total de testes 3 Testes errados 2 Custo total $0.095 Tempo de resposta (médio) 1.06s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
Total de testes 3 Testes errados 3 Custo total $0.061 Tempo de resposta (médio) 1.07s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
Total de testes 3 Testes errados 2 Custo total $0.016 Tempo de resposta (médio) 1.20s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
Total de testes 3 Testes errados 3 Custo total $0.010 Tempo de resposta (médio) 1.21s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado