AI BENCHY
Your ad here

Falhas por categoria AI BENCHY

Inteligência geral: Não seguiu as instruções

Inteligência geral
Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

13

Falhas totais

58

Modelo mais afetado

Seed-2.0-Lite 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação da categoria Testes corretos Tempo de resposta (médio)
#80 MiniMax M2.7 medium Minimax 1 3.9 0/1 38.7s
#81 Elephant medium Openrouter 1 4.3 0/1 920ms
#84 gpt-oss-120b none OpenAI 1 4.6 0/1 2.83s
#85 Elephant none Openrouter 1 4.0 0/1 854ms
#86 GPT-5.4 Mini none OpenAI 1 4.8 0/1 1.82s
#88 Nemotron 3 Super none NVIDIA 1 4.2 0/1 25.0s
#90 Qwen3.5-9B none Qwen 1 4.4 0/1 552ms
#91 Mercury 2 none Inception 1 4.8 0/1 628ms
#92 Qwen3 Coder Next medium Qwen 1 6.3 0/1 1.39s
#94 MiMo-V2-Flash none Xiaomi 1 4.6 0/1 1.67s
#95 Grok 4.1 Fast none X AI 1 4.4 0/1 1.08s
#96 GPT-5.4 Nano none OpenAI 1 3.8 0/1 1.31s
#98 LFM2-24B-A2B none Liquid 1 4.0 0/1 395ms

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado