AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Gemini 3.5 Flash 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#49 Qwen3.5-Flash medium Qwen 1 7.4 12/21 63.3s
#50 Gemini 3.1 Flash Lite Preview low Google 1 7.4 13/21 2.77s
#51 Mimo V2 PRO medium Xiaomi 1 7.4 12/21 22.2s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)