AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Sem resposta

Veja quais modelos de IA encontram Sem resposta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

15

Falhas totais

43

Modelo mais afetado

Claude Opus 4.8 1
Posição Modelo Empresa Contagem de Sem resposta Pontuação Testes corretos Tempo de resposta (médio)
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#107 Laguna Xs.2 medium Poolside 2 5.8 6/19 6.73s
#10 Claude Opus 4.8 medium Anthropic 1 8.7 17/21 9.66s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#57 Step 3.7 Flash low Stepfun 1 7.3 12/21 15.7s
#42 GPT-5.2 medium OpenAI 1 7.5 13/21 16.9s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 4.6 4/19 17.1s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#86 Grok 4.1 Fast medium X AI 1 6.5 9/19 23.8s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#105 Nemotron 3 Super medium NVIDIA 1 5.8 8/21 32.0s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s

Melhores modelos por Contagem de Sem resposta

Contagem de Sem resposta vs Pontuação

Melhores modelos por Tempo de resposta (médio)