AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Falhas AI BENCHY

Falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

15

Falhas totais

1204

Modelo mais afetado

Granite 4.1 8B 13
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação Testes corretos Tempo de resposta (médio)
#58 Gemini 3.1 Flash Lite Preview none Google 7 7.2 12/21 1.21s
#57 Step 3.7 Flash low Stepfun 8 7.3 12/21 15.7s
#56 MiMo-V2.5 medium Xiaomi 5 7.3 12/21 27.1s
#55 GLM 5.1 medium Z.ai 4 7.3 12/21 33.7s
#54 GPT-5 Mini medium OpenAI 5 7.3 12/21 23.6s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#52 Claude Sonnet 4.6 medium Anthropic 4 7.4 13/21 17.1s
#51 Mimo V2 PRO medium Xiaomi 5 7.4 12/21 22.2s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#48 Gemini 3 Flash Preview none Google 8 7.4 13/21 1.65s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#46 Qwen3.6 35B A3B medium Qwen 4 7.4 13/21 18.1s
#45 GPT-5.4 Mini medium OpenAI 6 7.5 12/21 22.3s
#44 Gemini 3.1 Flash Lite medium Google 7 7.5 13/21 3.23s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)