AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Falhas por categoria AI BENCHY

Inteligência geral: Não seguiu as instruções

Inteligência geral
Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.

Modelos exibidos

15

Falhas totais

74

Modelo mais afetado

GPT-5.3-Codex 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação da categoria Testes corretos Tempo de resposta (médio)
#15 GPT-5.3-Codex medium OpenAI 1 4.6 0/1 4.87s
#17 GLM 5 medium Z.ai 1 6.1 0/1 14.7s
#19 Seed-2.0-Lite medium Bytedance Seed 1 6.7 0/1 18.2s
#21 GPT-5.4 medium OpenAI 1 4.7 0/1 4.92s
#24 GPT-5.2 Chat none OpenAI 1 4.4 0/1 3.20s
#26 Qwen3.6 Plus medium Qwen 1 5.1 0/1 27.1s
#28 Gemini 2.5 Flash medium Google 1 4.8 0/1 4.86s
#30 Qwen3.5-27B medium Qwen 1 6.1 0/1 101.4s
#31 DeepSeek V4 Flash high DeepSeek 1 6.1 0/1 25.2s
#38 Grok 4.3 medium X AI 1 5.4 0/1 24.7s
#42 GPT-5.2 medium OpenAI 1 3.7 0/1 4.32s
#43 MiMo-V2.5-Pro medium Xiaomi 1 5.5 0/1 4.02s
#45 GPT-5.4 Mini medium OpenAI 1 4.5 0/1 3.72s
#46 Qwen3.6 35B A3B medium Qwen 1 4.4 0/1 8.66s
#49 Qwen3.5-Flash medium Qwen 1 6.1 0/1 40.1s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado