AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

Falhas por categoria AI BENCHY

Truques anti-IA
Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Truques anti-IA, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

12

Falhas totais

12

Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação da categoria Testes corretos Tempo de resposta (médio)
#22 Gemini 3.1 Flash Lite Preview none Google 1 6.0 1/3 1.16s
#36 Mercury 2 medium Inception 1 7.3 2/3 1.30s
#53 Grok 4.1 Fast none X AI 1 1.3 0/3 1.73s
#12 Gemini 3.1 Flash Lite Preview medium Google 1 9.0 2/3 2.53s
#48 Qwen3 Coder Next none Qwen 1 2.3 0/3 4.39s
#19 GPT-5.3 Chat none OpenAI 1 7.3 2/3 4.72s
#27 GPT-5.2 medium OpenAI 1 7.0 2/3 14.3s
#50 Qwen3 Coder Next medium Qwen 1 1.3 0/3 15.3s
#32 GPT-5 Mini medium OpenAI 1 7.0 2/3 16.5s
#39 gpt-oss-120b medium OpenAI 1 7.0 2/3 19.8s
#52 GLM 4.7 Flash medium Z.ai 1 4.0 1/3 27.1s
#43 MiniMax M2.5 medium Minimax 1 9.3 2/3 32.4s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs pontuação média

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado