Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
Total de testes 1 Testes errados 1 Custo total $0.045 Tempo de resposta (médio) 180.9s
#60	Qwen3.7 Plus none	Qwen	1	3.0	$0.023	0/1	1.21s
Total de testes 1 Testes errados 1 Custo total $0.023 Tempo de resposta (médio) 1.21s
#61	GLM 5.2 none	Z.ai	1	3.0	$0.076	0/1	3.41s
Total de testes 1 Testes errados 1 Custo total $0.076 Tempo de resposta (médio) 3.41s
#62	MiMo-V2-Flash medium	Xiaomi	1	3.0	$0.043	0/1	1.96s
Total de testes 1 Testes errados 1 Custo total $0.043 Tempo de resposta (médio) 1.96s
#64	GLM 5.1 medium	Z.ai	1	3.0	$0.292	0/1	29.4s
Total de testes 1 Testes errados 1 Custo total $0.292 Tempo de resposta (médio) 29.4s
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
Total de testes 1 Testes errados 1 Custo total $0.583 Tempo de resposta (médio) 341.8s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
Total de testes 1 Testes errados 1 Custo total $1.079 Tempo de resposta (médio) 4.87s
#67	Gemini 3 Flash Preview none	Google	1	3.0	$0.025	0/1	1.07s
Total de testes 1 Testes errados 1 Custo total $0.025 Tempo de resposta (médio) 1.07s
#68	Qwen3.7 Max none	Qwen	1	3.0	$0.054	0/1	856ms
Total de testes 1 Testes errados 1 Custo total $0.054 Tempo de resposta (médio) 856ms
#70	Qwen3.5-Flash medium	Qwen	1	3.0	$0.080	0/1	49.0s
Total de testes 1 Testes errados 1 Custo total $0.080 Tempo de resposta (médio) 49.0s
#71	Gemini 3.5 Flash minimal	Google	1	3.0	$0.108	0/1	1.76s
Total de testes 1 Testes errados 1 Custo total $0.108 Tempo de resposta (médio) 1.76s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
Total de testes 1 Testes errados 1 Custo total $0.033 Tempo de resposta (médio) 113.9s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
Total de testes 1 Testes errados 1 Custo total $0.683 Tempo de resposta (médio) 234.2s
#74	Hy3 preview high	Tencent	1	3.0	$0.059	0/1	47.7s
Total de testes 1 Testes errados 1 Custo total $0.059 Tempo de resposta (médio) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.146	0/1	32.9s
Total de testes 1 Testes errados 1 Custo total $0.146 Tempo de resposta (médio) 32.9s

←

1 3 4 5 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado