Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
Total de testes 1 Testes errados 1 Custo total $0.927 Tempo de resposta (médio) 53.5s
#43	Kimi K2.5 medium	Moonshot AI	1	3.0	$0.348	0/1	83.9s
Total de testes 1 Testes errados 1 Custo total $0.348 Tempo de resposta (médio) 83.9s
#44	Mercury 2 medium	Inception	1	3.0	$0.058	0/1	2.58s
Total de testes 1 Testes errados 1 Custo total $0.058 Tempo de resposta (médio) 2.58s
#45	GPT-5.3 Chat none	OpenAI	1	3.0	$0.433	0/1	4.38s
Total de testes 1 Testes errados 1 Custo total $0.433 Tempo de resposta (médio) 4.38s
#46	GPT-5.4 Nano medium	OpenAI	1	3.0	$0.107	0/1	4.81s
Total de testes 1 Testes errados 1 Custo total $0.107 Tempo de resposta (médio) 4.81s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
Total de testes 1 Testes errados 1 Custo total $0.288 Tempo de resposta (médio) 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	1	3.0	$0.044	0/1	84.0s
Total de testes 1 Testes errados 1 Custo total $0.044 Tempo de resposta (médio) 84.0s
#49	Claude Opus 4.7 none	Anthropic	1	3.0	$0.505	0/1	1.46s
Total de testes 1 Testes errados 1 Custo total $0.505 Tempo de resposta (médio) 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	3.0	$0.044	0/1	56.8s
Total de testes 1 Testes errados 1 Custo total $0.044 Tempo de resposta (médio) 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	1	3.0	$0.106	0/1	12.5s
Total de testes 1 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 12.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
Total de testes 1 Testes errados 1 Custo total $0.609 Tempo de resposta (médio) 63.5s
#54	Hy3 preview medium	Tencent	1	3.0	$0.021	0/1	39.9s
Total de testes 1 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	1	3.0	$0.316	0/1	4.67s
Total de testes 1 Testes errados 1 Custo total $0.316 Tempo de resposta (médio) 4.67s
#56	GLM 5V Turbo medium	Z.ai	1	3.0	$0.457	0/1	41.0s
Total de testes 1 Testes errados 1 Custo total $0.457 Tempo de resposta (médio) 41.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.0	$0.034	0/1	5.76s
Total de testes 1 Testes errados 1 Custo total $0.034 Tempo de resposta (médio) 5.76s

←

1 2 3 4 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado