AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Sem resposta

Veja quais modelos de IA encontram Sem resposta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

15

Falhas totais

43

Modelo mais afetado

Qwen3.5-9B 2
Posição Modelo Empresa Contagem de Sem resposta Pontuação Testes corretos Tempo de resposta (médio)
#62 Step 3.5 Flash medium Stepfun 1 7.2 11/20 72.5s
#53 Gemini 3.1 Flash Lite high Google 1 7.3 10/18 62.0s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#57 Step 3.7 Flash low Stepfun 1 7.3 12/21 15.7s
#60 Kimi K2.6 medium Moonshot AI 1 7.2 12/21 71.7s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#42 GPT-5.2 medium OpenAI 1 7.5 13/21 16.9s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#27 Gemma 4 31B medium Google 1 7.8 14/21 56.5s
#37 Gemma 4 26B A4B medium Google 2 7.6 14/21 63.4s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#10 Claude Opus 4.8 medium Anthropic 1 8.7 17/21 9.66s

Melhores modelos por Contagem de Sem resposta

Contagem de Sem resposta vs Pontuação

Melhores modelos por Tempo de resposta (médio)