AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Inteligência geral: Não seguiu as instruções

Inteligência geral
Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

15

Falhas totais

74

Modelo mais afetado

GPT-5.3-Codex 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação da categoria Testes corretos Tempo de resposta (médio)
#78 Qwen3.6 27B medium Qwen 1 6.5 0/1 39.5s
#79 Hunter Alpha medium OpenRouter 1 7.0 0/1 6.44s
#81 Mercury 2 medium Inception 1 4.8 0/1 821ms
#83 Step 3.5 Flash none Stepfun 1 4.0 0/1 14.4s
#84 Grok 4.20 Multi Agent Beta medium X AI 1 5.8 0/1 6.40s
#86 Grok 4.1 Fast medium X AI 1 4.2 0/1 16.2s
#87 Gemini 3.1 Flash Lite minimal Google 1 4.0 0/1 791ms
#88 Qwen3.7 Plus none Qwen 1 5.3 0/1 1.33s
#94 GPT-5 Nano medium OpenAI 1 4.1 0/1 17.5s
#99 gpt-oss-120b medium OpenAI 1 4.3 0/1 7.90s
#102 Gemma 4 26B A4B none Google 1 4.0 0/1 3.54s
#103 DeepSeek V4 Pro high DeepSeek 1 6.1 0/1 25.1s
#105 Nemotron 3 Super medium NVIDIA 1 4.1 0/1 6.91s
#106 Grok 4.20 Beta none X AI 1 5.0 0/1 541ms
#109 GLM 5V Turbo none Z.ai 1 4.6 0/1 2.22s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado