AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Gemini 3.5 Flash 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#118 Qwen3.6 27B none Qwen 2 5.6 7/21 3.72s
#119 Cobuddy medium Baidu 3 5.6 7/21 39.9s
#120 Mimo V2 PRO none Xiaomi 2 5.6 7/21 2.27s
#121 Owl Alpha none Openrouter 3 5.5 7/21 9.88s
#124 Kimi K2.6 none Moonshot AI 3 5.5 7/21 13.3s
#125 GPT-5.4 none OpenAI 1 5.5 7/21 1.42s
#128 Qwen3.6 Flash none Qwen 1 5.4 7/21 1.60s
#126 gpt-oss-120b none OpenAI 2 5.4 6/19 21.6s
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s
#123 MiMo-V2.5-Pro none Xiaomi 4 5.5 6/21 1.78s
#131 Qwen3.5-122B-A10B none Qwen 2 5.3 6/21 3.41s
#133 DeepSeek V3.2 none DeepSeek 1 5.2 6/21 13.8s
#134 GLM 5 Turbo none Z.ai 2 5.2 6/21 2.82s
#136 Elephant Alpha medium Openrouter 2 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)