AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

15

Falhas totais

215

Modelo mais afetado

Granite 4.1 8B 4
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#65 Grok 4.20 medium X AI 2 7.1 12/21 27.7s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#30 Qwen3.5-27B medium Qwen 2 7.8 13/21 68.4s
#31 DeepSeek V4 Flash high DeepSeek 2 7.7 13/21 45.8s
#38 Grok 4.3 medium X AI 2 7.6 13/21 47.5s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 7.5 13/21 3.96s
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#44 Gemini 3.1 Flash Lite medium Google 1 7.5 13/21 3.23s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#50 Gemini 3.1 Flash Lite Preview low Google 1 7.4 13/21 2.77s
#19 Seed-2.0-Lite medium Bytedance Seed 2 8.2 14/21 47.1s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)