AI BENCHY
Your ad here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

15

Falhas totais

180

Modelo mais afetado

Qwen3.6 Plus Preview 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#42 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s
#48 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#59 Qwen3.5-Flash none Qwen 1 6.2 8/18 3.25s
#62 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#66 GPT-5.4 none OpenAI 1 5.9 7/18 1.51s
#70 Qwen3.5-122B-A10B none Qwen 1 5.7 6/18 3.69s
#87 Qwen3 Coder Next none Qwen 1 5.1 4/18 10.2s
#89 GPT-4o-mini none OpenAI 1 4.9 4/18 2.00s
#91 Mercury 2 none Inception 1 4.8 4/18 613ms
#94 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#6 Seed-2.0-Lite medium Bytedance Seed 2 8.6 13/18 30.4s
#7 GPT-5.3-Codex medium OpenAI 2 8.6 13/18 15.4s
#10 Qwen3.5-27B medium Qwen 2 8.4 13/18 53.0s
#16 GPT-5.4 medium OpenAI 2 8.2 13/18 18.6s
#18 GLM 5 Turbo medium Z.ai 2 8.1 12/18 17.7s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)