Ranking de falhas por Não seguiu as instruções

Falhas AI BENCHY

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

215

Modelo mais afetado

Kimi K2.5 2

Categorias

Na categoria Resolução de quebra-cabeças78 Na categoria Inteligência geral74 Na categoria Truques anti-IA30 Na categoria Programação14 Na categoria Seguimento de instruções11 Na categoria Chamada de ferramentas6 Na categoria Combinado1 Na categoria Específico do domínio1

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação	Testes corretos	Tempo de resposta (médio)
#76	Kimi K2.5 medium	Moonshot AI	2	6.8	10/21	98.4s
#161	Qwen3.5-9B medium	Qwen	1	4.2	3/21	82.2s
#73	Seed-2.0-Mini medium	Bytedance Seed	1	6.9	11/21	80.2s
#62	Step 3.5 Flash medium	Stepfun	3	7.2	11/20	72.5s
#60	Kimi K2.6 medium	Moonshot AI	2	7.2	12/21	71.7s
#72	DeepSeek V3.2 medium	DeepSeek	1	7.0	11/21	68.7s
#30	Qwen3.5-27B medium	Qwen	2	7.8	13/21	68.4s
#67	MiniMax M3 medium	Minimax	2	7.1	11/21	68.2s
#12	Gemini 3.1 Flash Lite Preview high	Google	1	8.6	13/16	68.1s
#129	MiniMax M2.5 medium	Minimax	3	5.3	5/21	65.4s
#103	DeepSeek V4 Pro high	DeepSeek	1	6.0	8/21	65.2s
#49	Qwen3.5-Flash medium	Qwen	1	7.4	12/21	63.3s
#53	Gemini 3.1 Flash Lite high	Google	3	7.3	10/18	62.0s
#75	Ring-2.6-1T medium	Inclusionai	2	6.9	11/21	61.3s
#78	Qwen3.6 27B medium	Qwen	1	6.8	10/21	59.7s

Falhas por Não seguiu as instruções

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)