AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

Falhas por categoria AI BENCHY

Resolução de quebra-cabeças
Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

20

Falhas totais

24

Modelo mais afetado

Gemini 2.5 Flash 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação da categoria Testes corretos Tempo de resposta (médio)
#38 Gemini 2.5 Flash none Google 1 4.7 1/3 576ms
#36 Mercury 2 medium Inception 2 1.7 0/3 934ms
#49 GLM 4.7 Flash none Z.ai 2 3.7 0/3 1.00s
#42 Qwen3.5-35B-A3B none Qwen 1 1.7 0/3 1.34s
#41 Qwen3.5-27B none Qwen 1 6.3 1/3 1.37s
#44 GPT-5.4 none OpenAI 1 4.0 1/3 1.52s
#55 LFM2-24B-A2B none Liquid 1 3.3 0/3 1.69s
#50 Qwen3 Coder Next medium Qwen 2 10.0 0/3 2.30s
#3 GPT-5.3-Codex medium OpenAI 1 9.3 2/3 5.12s
#27 GPT-5.2 medium OpenAI 1 7.0 2/3 5.47s
#37 Qwen3.5-Flash none Qwen 1 1.3 0/3 5.90s
#13 Step 3.5 Flash medium Stepfun 1 4.0 1/3 7.72s
#30 Grok 4.1 Fast medium X AI 1 4.0 1/3 8.08s
#9 GPT-5.4 medium OpenAI 1 7.0 2/3 9.13s
#39 gpt-oss-120b medium OpenAI 2 1.7 0/3 11.8s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/3 12.9s
#32 GPT-5 Mini medium OpenAI 1 4.3 1/3 14.1s
#34 GPT-5 Nano medium OpenAI 1 4.0 1/3 19.8s
#28 Kimi K2.5 medium Moonshot AI 1 4.0 1/3 45.4s
#7 Qwen3.5-27B medium Qwen 1 8.3 2/3 64.6s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs pontuação média

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado