Falhas por categoria AI BENCHY

Seguimento de instruções

Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Seguimento de instruções, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Motivos de falha relacionados

Resposta incorreta26 Não seguiu as instruções9

Categorias relacionadas

Específico do domínio98 Resolução de quebra-cabeças55 Truques anti-IA53 Seguimento de instruções26 Combinado21 Análise e extração de dados14 Inteligência geral6 Chamada de ferramentas2

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Testes corretos	Tempo de resposta (médio)
#40	Qwen3.5-122B-A10B none	Qwen	2	4.5	0/2	585ms
#41	Qwen3.5-27B none	Qwen	2	4.5	0/2	815ms
#48	Qwen3 Coder Next none	Qwen	2	4.5	0/2	7.71s
#53	Grok 4.1 Fast none	X AI	2	10.0	0/2	923ms
#55	LFM2-24B-A2B none	Liquid	2	4.5	0/2	1.09s
#15	GPT-5.2 Chat none	OpenAI	1	6.0	1/2	5.46s
#19	GPT-5.3 Chat none	OpenAI	1	9.0	1/2	3.29s
#20	Gemini 3 Flash Preview none	Google	1	5.5	1/2	1.58s
#25	Claude Sonnet 4.6 none	Anthropic	1	5.5	1/2	1.96s
#37	Qwen3.5-Flash none	Qwen	1	5.0	1/2	8.81s
#38	Gemini 2.5 Flash none	Google	1	9.0	1/2	672ms
#42	Qwen3.5-35B-A3B none	Qwen	1	5.0	1/2	809ms
#44	GPT-5.4 none	OpenAI	1	5.5	1/2	1.07s
#45	Trinity Large Preview none	Arcee AI	1	3.5	0/2	1.09s
#46	Kimi K2.5 none	Moonshot AI	1	5.5	1/2	2.67s
#47	GPT-4o-mini none	OpenAI	1	4.5	0/2	1.27s
#49	GLM 4.7 Flash none	Z.ai	1	5.5	1/2	888ms
#50	Qwen3 Coder Next medium	Qwen	1	4.5	0/2	7.34s
#51	Mercury 2 none	Inception	1	5.5	1/2	551ms
#52	GLM 4.7 Flash medium	Z.ai	1	5.0	1/2	2.97s
#54	MiMo-V2-Flash none	Xiaomi	1	5.5	1/2	857ms

Melhores modelos por Contagem de Resposta incorreta