AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

15

Falhas totais

1204

Modelo mais afetado

Granite 4.1 8B 13
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação Testes corretos Tempo de resposta (médio)
#40 Gemini 3.1 Flash Lite Preview medium Google 7 7.5 13/21 3.96s
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 7 7.5 13/21 15.1s
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#44 Gemini 3.1 Flash Lite medium Google 7 7.5 13/21 3.23s
#46 Qwen3.6 35B A3B medium Qwen 4 7.4 13/21 18.1s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#48 Gemini 3 Flash Preview none Google 8 7.4 13/21 1.65s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#52 Claude Sonnet 4.6 medium Anthropic 4 7.4 13/21 17.1s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#21 GPT-5.4 medium OpenAI 5 8.0 14/21 22.3s
#22 Step 3.7 Flash medium Stepfun 5 8.0 14/21 20.4s
#23 GLM 5 Turbo medium Z.ai 4 8.0 14/21 23.0s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)