Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.50s
#111	Kimi K2.6 none	Moonshot AI	1	3.0	$0.079	0/1	1.36s
Total de testes 1 Testes errados 1 Custo total $0.079 Tempo de resposta (médio) 1.36s
#112	GPT-5.4 none	OpenAI	1	3.0	$0.122	0/1	990ms
Total de testes 1 Testes errados 1 Custo total $0.122 Tempo de resposta (médio) 990ms
#114	Mimo V2 Omni none	Xiaomi	1	3.0	$0.021	0/1	1.30s
Total de testes 1 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 1.30s
#115	Grok 4.1 Fast medium	X AI	1	3.0	$0.069	0/1	25.5s
Total de testes 1 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 25.5s
#116	GLM 5.1 none	Z.ai	1	3.0	$0.058	0/1	2.34s
Total de testes 1 Testes errados 1 Custo total $0.058 Tempo de resposta (médio) 2.34s
#117	DeepSeek V4 Flash none	DeepSeek	1	3.0	$0.007	0/1	3.07s
Total de testes 1 Testes errados 1 Custo total $0.007 Tempo de resposta (médio) 3.07s
#118	Kimi K2.5 none	Moonshot AI	1	3.0	$0.027	0/1	3.90s
Total de testes 1 Testes errados 1 Custo total $0.027 Tempo de resposta (médio) 3.90s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	1.89s
Total de testes 1 Testes errados 1 Custo total $0.017 Tempo de resposta (médio) 1.89s
#120	Qwen3.6 27B none	Qwen	1	3.0	$0.028	0/1	4.03s
Total de testes 1 Testes errados 1 Custo total $0.028 Tempo de resposta (médio) 4.03s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
Total de testes 1 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 778ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.0	$0.032	0/1	33.3s
Total de testes 1 Testes errados 1 Custo total $0.032 Tempo de resposta (médio) 33.3s
#123	GLM 5 Turbo none	Z.ai	1	3.0	$0.047	0/1	2.37s
Total de testes 1 Testes errados 1 Custo total $0.047 Tempo de resposta (médio) 2.37s
#124	GPT-5.4 Mini none	OpenAI	1	3.0	$0.038	0/1	1.33s
Total de testes 1 Testes errados 1 Custo total $0.038 Tempo de resposta (médio) 1.33s
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
Total de testes 1 Testes errados 1 Custo total $0.020 Tempo de resposta (médio) 295ms

←

1 6 7 8 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado