AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Gemini 3.5 Flash 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#7 Gemini 3.5 Flash medium Google 1 9.0 18/21 4.94s
#12 Gemini 3.1 Flash Lite Preview high Google 1 8.6 13/16 68.1s
#13 Grok 4.20 Beta medium X AI 1 8.5 14/18 9.75s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#24 GPT-5.2 Chat none OpenAI 1 7.9 14/21 7.13s
#26 Qwen3.6 Plus medium Qwen 1 7.9 14/21 30.7s
#28 Gemini 2.5 Flash medium Google 1 7.8 14/21 15.5s
#32 Gemini 3.5 Flash minimal Google 1 7.7 14/21 1.57s
#33 Hy3 preview medium Tencent 1 7.7 14/21 16.3s
#39 Qwen3.6 Flash medium Qwen 1 7.5 12/21 19.2s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 7.5 13/21 3.96s
#44 Gemini 3.1 Flash Lite medium Google 1 7.5 13/21 3.23s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)