AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Conhecimentos gerais: Resposta incorreta

Conhecimentos gerais
Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

15

Falhas totais

117

Modelo mais afetado

Claude Opus 4.7 1

Motivos de falha

Posição Modelo Empresa Contagem de Resposta incorreta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#24 Grok 4.3 medium X AI 1 3.0 0/1 44.5s
#25 Gemini 2.5 Flash medium Google 1 3.0 0/1 2.76s
#26 GPT-5.4 medium OpenAI 1 3.0 0/1 14.0s
#27 Gemini 3.1 Flash Lite medium Google 1 3.0 0/1 3.08s
#28 Qwen3.6 Plus medium Qwen 1 3.0 0/1 47.5s
#29 Gemini 3 Flash Preview none Google 1 3.0 0/1 1.07s
#30 Gemini 3.1 Flash Lite Preview low Google 1 3.0 0/1 1.35s
#31 Qwen3.5-122B-A10B medium Qwen 1 3.0 0/1 52.9s
#33 Qwen3.5 Plus 2026-04-20 medium Qwen 1 3.0 0/1 92.6s
#34 HY3 Preview medium Tencent 1 3.0 0/1 39.9s
#35 Claude Sonnet 4.6 medium Anthropic 1 3.0 0/1 30.1s
#36 Step 3.5 Flash none Stepfun 1 3.0 0/1 114.1s
#37 MiMo-V2-Pro medium Xiaomi 1 3.0 0/1 82.7s
#38 Gemma 4 26B A4B medium Google 1 3.0 0/1 180.9s
#39 HY3 Preview low Tencent 1 3.0 0/1 41.7s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado