AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

MiniMax M2.7 5
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s
#90 Gemini 3.1 Flash Lite none Google 1 6.4 9/21 1.06s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#101 Mimo V2 Omni none Xiaomi 1 6.0 8/21 2.44s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 6.0 8/21 2.27s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)