AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Granite 4.1 8B 4
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#53 Gemini 3.1 Flash Lite high Google 3 7.3 10/18 62.0s
#51 Mimo V2 PRO medium Xiaomi 1 7.4 12/21 22.2s
#50 Gemini 3.1 Flash Lite Preview low Google 1 7.4 13/21 2.77s
#49 Qwen3.5-Flash medium Qwen 1 7.4 12/21 63.3s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#45 GPT-5.4 Mini medium OpenAI 3 7.5 12/21 22.3s
#44 Gemini 3.1 Flash Lite medium Google 1 7.5 13/21 3.23s
#43 MiMo-V2.5-Pro medium Xiaomi 2 7.5 12/21 26.1s
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 7.5 13/21 3.96s
#39 Qwen3.6 Flash medium Qwen 1 7.5 12/21 19.2s
#38 Grok 4.3 medium X AI 2 7.6 13/21 47.5s
#33 Hy3 preview medium Tencent 1 7.7 14/21 16.3s
#32 Gemini 3.5 Flash minimal Google 1 7.7 14/21 1.57s
#31 DeepSeek V4 Flash high DeepSeek 2 7.7 13/21 45.8s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)