AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Gemini 3.5 Flash 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#65 Grok 4.20 medium X AI 2 7.1 12/21 27.7s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#70 GPT-5.4 Nano medium OpenAI 2 7.0 11/21 12.0s
#75 Ring-2.6-1T medium Inclusionai 2 6.9 11/21 61.3s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#80 Mimo V2 Omni medium Xiaomi 2 6.7 10/21 41.2s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#94 GPT-5 Nano medium OpenAI 2 6.3 9/21 42.5s
#96 Ring-2.6-1T none Inclusionai 2 6.2 9/21 55.1s
#100 Grok Build 0.1 none X AI 2 6.0 7/19 28.7s
#102 Gemma 4 26B A4B none Google 2 6.0 8/21 5.91s
#109 GLM 5V Turbo none Z.ai 2 5.8 8/21 2.99s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s
#113 DeepSeek V4 Pro none DeepSeek 2 5.7 7/21 12.4s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)