Falhas por categoria AI BENCHY

Resolução de quebra-cabeças

Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Mercury 2 2

Motivos de falha relacionados

Resposta incorreta55 Não seguiu as instruções24 Tempo esgotado4 Erro de API1 Formatação extra1

Categorias relacionadas

Inteligência geral32 Resolução de quebra-cabeças24 Truques anti-IA12 Seguimento de instruções9

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Testes corretos	Tempo de resposta (médio)
#36	Mercury 2 medium	Inception	2	1.7	0/3	934ms
#39	gpt-oss-120b medium	OpenAI	2	1.7	0/3	11.8s
#49	GLM 4.7 Flash none	Z.ai	2	3.7	0/3	1.00s
#50	Qwen3 Coder Next medium	Qwen	2	10.0	0/3	2.30s
#3	GPT-5.3-Codex medium	OpenAI	1	9.3	2/3	5.12s
#7	Qwen3.5-27B medium	Qwen	1	8.3	2/3	64.6s
#9	GPT-5.4 medium	OpenAI	1	7.0	2/3	9.13s
#13	Step 3.5 Flash medium	Stepfun	1	4.0	1/3	7.72s
#27	GPT-5.2 medium	OpenAI	1	7.0	2/3	5.47s
#28	Kimi K2.5 medium	Moonshot AI	1	4.0	1/3	45.4s
#30	Grok 4.1 Fast medium	X AI	1	4.0	1/3	8.08s
#32	GPT-5 Mini medium	OpenAI	1	4.3	1/3	14.1s
#34	GPT-5 Nano medium	OpenAI	1	4.0	1/3	19.8s
#37	Qwen3.5-Flash none	Qwen	1	1.3	0/3	5.90s
#38	Gemini 2.5 Flash none	Google	1	4.7	1/3	576ms
#41	Qwen3.5-27B none	Qwen	1	6.3	1/3	1.37s
#42	Qwen3.5-35B-A3B none	Qwen	1	1.7	0/3	1.34s
#44	GPT-5.4 none	OpenAI	1	4.0	1/3	1.52s
#52	GLM 4.7 Flash medium	Z.ai	1	10.0	0/3	12.9s
#55	LFM2-24B-A2B none	Liquid	1	3.3	0/3	1.69s

Resolução de quebra-cabeças

Não seguiu as instruções

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs pontuação média

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado