Falhas por categoria AI BENCHY

Seguimento de instruções

Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Seguimento de instruções, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.1 Flash Lite Preview 1

Motivos de falha relacionados

Resposta incorreta26 Não seguiu as instruções9

Categorias relacionadas

Inteligência geral32 Resolução de quebra-cabeças24 Truques anti-IA12 Seguimento de instruções9

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Testes corretos	Tempo de resposta (médio)
#8	Gemini 3.1 Flash Lite Preview high	Google	1	9.0	1/2	70.1s
#13	Step 3.5 Flash medium	Stepfun	1	9.0	1/2	4.98s
#30	Grok 4.1 Fast medium	X AI	1	5.5	1/2	5.30s
#32	GPT-5 Mini medium	OpenAI	1	7.5	1/2	15.7s
#34	GPT-5 Nano medium	OpenAI	1	9.0	1/2	11.9s
#43	MiniMax M2.5 medium	Minimax	1	8.0	1/2	4.64s
#45	Trinity Large Preview none	Arcee AI	1	3.5	0/2	1.09s
#47	GPT-4o-mini none	OpenAI	1	4.5	0/2	1.27s
#50	Qwen3 Coder Next medium	Qwen	1	4.5	0/2	7.34s

Seguimento de instruções

Não seguiu as instruções

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs pontuação média

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado