AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

15

Falhas totais

1204

Modelo mais afetado

Mistral Small 4 15
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação Testes corretos Tempo de resposta (médio)
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 7 7.5 13/21 15.1s
#93 Qwen3.6 Plus Preview medium Qwen 2 6.3 9/19 15.2s
#28 Gemini 2.5 Flash medium Google 6 7.8 14/21 15.5s
#57 Step 3.7 Flash low Stepfun 8 7.3 12/21 15.7s
#5 Qwen3.7 Max medium Qwen 3 9.1 18/21 16.0s
#15 GPT-5.3-Codex medium OpenAI 4 8.4 15/21 16.2s
#33 Hy3 preview medium Tencent 3 7.7 14/21 16.3s
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#52 Claude Sonnet 4.6 medium Anthropic 4 7.4 13/21 17.1s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 7 4.6 4/19 17.1s
#46 Qwen3.6 35B A3B medium Qwen 4 7.4 13/21 18.1s
#1 Gemini 3 Flash Preview medium Google 1 9.8 20/21 18.6s
#39 Qwen3.6 Flash medium Qwen 8 7.5 12/21 19.2s
#64 MiMo-V2-Flash medium Xiaomi 5 7.2 12/21 20.1s
#4 Gemini 3.1 Pro Preview medium Google 2 9.4 19/21 20.1s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)