Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

117

Modelo mais afetado

MiMo-V2-Omni 1

Motivos de falha

Resposta incorreta117

Categorias

Específico do domínio283 Truques anti-IA230 Resolução de quebra-cabeças144 Conhecimentos gerais117 Seguimento de instruções51 Combinado50 Programação41 Análise e extração de dados29 Inteligência geral25 Chamada de ferramentas2

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Testes corretos	Tempo de resposta (médio)
#62	MiMo-V2-Omni medium	Xiaomi	1	3.0	0/1	234.2s
#38	Gemma 4 26B A4B medium	Google	1	3.0	0/1	180.9s
#57	Qwen3.5-35B-A3B medium	Qwen	1	3.0	0/1	177.4s
#140	Qwen3.5-9B medium	Qwen	1	3.0	0/1	177.0s
#42	Kimi K2.6 medium	Moonshot AI	1	3.0	0/1	130.3s
#50	Qwen3.6 Flash medium	Qwen	1	3.0	0/1	122.9s
#36	Step 3.5 Flash none	Stepfun	1	3.0	0/1	114.1s
#43	Step 3.5 Flash medium	Stepfun	1	3.0	0/1	108.4s
#12	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	0/1	103.8s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	0/1	92.6s
#14	Gemma 4 31B medium	Google	1	3.0	0/1	90.1s
#17	Qwen3.5-27B medium	Qwen	1	3.0	0/1	85.1s
#59	DeepSeek V3.2 medium	DeepSeek	1	3.0	0/1	84.0s
#69	Kimi K2.5 medium	Moonshot AI	1	3.0	0/1	83.9s
#37	MiMo-V2-Pro medium	Xiaomi	1	3.0	0/1	82.7s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado