AI BENCHY
Your ad here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

15

Falhas totais

180

Modelo mais afetado

LFM2-24B-A2B 2
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#96 GPT-5.4 Nano none OpenAI 3 4.5 2/18 1.40s
#95 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#94 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#92 Qwen3 Coder Next medium Qwen 5 4.7 3/18 10.8s
#91 Mercury 2 none Inception 1 4.8 4/18 613ms
#90 Qwen3.5-9B none Qwen 3 4.8 4/18 1.47s
#89 GPT-4o-mini none OpenAI 1 4.9 4/18 2.00s
#88 Nemotron 3 Super none NVIDIA 4 5.1 4/18 8.54s
#87 Qwen3 Coder Next none Qwen 1 5.1 4/18 10.2s
#86 GPT-5.4 Mini none OpenAI 3 5.1 5/18 1.17s
#85 Elephant none Openrouter 3 5.2 5/18 1.23s
#84 gpt-oss-120b none OpenAI 5 5.2 4/18 12.0s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)