AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

15

Falhas totais

1204

Modelo mais afetado

Gemini 3 Flash Preview 1
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação Testes corretos Tempo de resposta (médio)
#92 Laguna M.1 medium Poolside 4 6.4 9/19 14.7s
#103 DeepSeek V4 Pro high DeepSeek 4 6.0 8/21 65.2s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s
#18 Qwen3.7 Plus medium Qwen 5 8.2 15/21 38.9s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#21 GPT-5.4 medium OpenAI 5 8.0 14/21 22.3s
#22 Step 3.7 Flash medium Stepfun 5 8.0 14/21 20.4s
#26 Qwen3.6 Plus medium Qwen 5 7.9 14/21 30.7s
#29 Qwen3.5-122B-A10B medium Qwen 5 7.8 14/21 42.5s
#32 Gemini 3.5 Flash minimal Google 5 7.7 14/21 1.57s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#51 Mimo V2 PRO medium Xiaomi 5 7.4 12/21 22.2s
#54 GPT-5 Mini medium OpenAI 5 7.3 12/21 23.6s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)