Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#76	MiMo-V2.5 medium	Xiaomi	1	3.0	$0.063	0/1	51.3s
Total de testes 1 Testes errados 1 Custo total $0.063 Tempo de resposta (médio) 51.3s
#77	Mimo V2 PRO medium	Xiaomi	1	3.0	$0.333	0/1	82.7s
Total de testes 1 Testes errados 1 Custo total $0.333 Tempo de resposta (médio) 82.7s
#78	gpt-oss-120b medium	OpenAI	1	3.0	$0.013	0/1	26.5s
Total de testes 1 Testes errados 1 Custo total $0.013 Tempo de resposta (médio) 26.5s
#79	GPT-5 Nano medium	OpenAI	1	3.0	$0.081	0/1	20.1s
Total de testes 1 Testes errados 1 Custo total $0.081 Tempo de resposta (médio) 20.1s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
Total de testes 1 Testes errados 1 Custo total $0.070 Tempo de resposta (médio) 108.4s
#81	Qwen3.6 27B medium	Qwen	1	3.0	$0.440	0/1	81.0s
Total de testes 1 Testes errados 1 Custo total $0.440 Tempo de resposta (médio) 81.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.026	0/1	1.35s
Total de testes 1 Testes errados 1 Custo total $0.026 Tempo de resposta (médio) 1.35s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.018	0/1	814ms
Total de testes 1 Testes errados 1 Custo total $0.018 Tempo de resposta (médio) 814ms
#85	Gemini 3.1 Flash Lite low	Google	1	3.0	$0.028	0/1	1.46s
Total de testes 1 Testes errados 1 Custo total $0.028 Tempo de resposta (médio) 1.46s
#86	Hy3 preview low	Tencent	1	3.0	$0.018	0/1	41.7s
Total de testes 1 Testes errados 1 Custo total $0.018 Tempo de resposta (médio) 41.7s
#87	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.021	0/1	55.3s
Total de testes 1 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 55.3s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
Total de testes 1 Testes errados 1 Custo total $0.033 Tempo de resposta (médio) 90.1s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
Total de testes 1 Testes errados 1 Custo total $0.401 Tempo de resposta (médio) 177.4s
#90	GPT-5.5 none	OpenAI	1	3.0	$0.231	0/1	5.01s
Total de testes 1 Testes errados 1 Custo total $0.231 Tempo de resposta (médio) 5.01s
#92	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.019	0/1	1.96s
Total de testes 1 Testes errados 1 Custo total $0.019 Tempo de resposta (médio) 1.96s

←

1 4 5 6 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado