AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Gemini 3.5 Flash 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#153 Qwen3.6 35B A3B none Qwen 2 4.6 4/21 3.73s
#154 Qwen3.5-9B none Qwen 2 4.6 4/21 1.89s
#158 GLM 4.7 Flash medium Z.ai 2 4.4 4/21 35.1s
#159 Ling-2.6-1T none Inclusionai 2 4.3 3/21 7.72s
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 2 4.1 2/19 728ms
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#45 GPT-5.4 Mini medium OpenAI 3 7.5 12/21 22.3s
#53 Gemini 3.1 Flash Lite high Google 3 7.3 10/18 62.0s
#54 GPT-5 Mini medium OpenAI 3 7.3 12/21 23.6s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#81 Mercury 2 medium Inception 3 6.6 10/21 2.24s
#87 Gemini 3.1 Flash Lite minimal Google 3 6.4 10/21 1.33s
#99 gpt-oss-120b medium OpenAI 3 6.1 9/21 22.3s
#105 Nemotron 3 Super medium NVIDIA 3 5.8 8/21 32.0s
#119 Cobuddy medium Baidu 3 5.6 7/21 39.9s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)