AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Granite 4.1 8B 4
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#70 GPT-5.4 Nano medium OpenAI 2 7.0 11/21 12.0s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#65 Grok 4.20 medium X AI 2 7.1 12/21 27.7s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#58 Gemini 3.1 Flash Lite Preview none Google 2 7.2 12/21 1.21s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#54 GPT-5 Mini medium OpenAI 3 7.3 12/21 23.6s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)