AI BENCHY
Your ad here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

15

Falhas totais

180

Modelo mais afetado

LFM2-24B-A2B 2
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#47 Grok 4.20 medium X AI 4 7.0 9/18 10.3s
#51 Nemotron 3 Super medium NVIDIA 4 6.7 9/18 19.1s
#52 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#48 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#35 MiMo-V2-Omni medium Xiaomi 2 7.7 11/18 16.8s
#36 GPT-5.3 Chat none OpenAI 2 7.7 11/18 5.88s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#42 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)