Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
Total de testes 1 Testes errados 1 Custo total $0.026 Tempo de resposta (médio) 133.6s
#145	GPT-5.4 Nano none	OpenAI	1	3.0	$0.011	0/1	773ms
Total de testes 1 Testes errados 1 Custo total $0.011 Tempo de resposta (médio) 773ms
#146	MiniMax M2.5 medium	Minimax	1	3.0	$0.303	0/1	80.8s
Total de testes 1 Testes errados 1 Custo total $0.303 Tempo de resposta (médio) 80.8s
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 399ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
Total de testes 1 Testes errados 1 Custo total $0.011 Tempo de resposta (médio) 548ms
#157	GLM 4.7 Flash medium	Z.ai	1	3.0	$0.054	0/1	11.1s
Total de testes 1 Testes errados 1 Custo total $0.054 Tempo de resposta (médio) 11.1s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
Total de testes 1 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 2.71s
#159	MiMo-V2-Flash none	Xiaomi	1	3.0	$0.025	0/1	1.82s
Total de testes 1 Testes errados 1 Custo total $0.025 Tempo de resposta (médio) 1.82s
#160	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	36.1s
Total de testes 1 Testes errados 1 Custo total $0.547 Tempo de resposta (médio) 36.1s
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 731ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Total de testes 1 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 306ms
#164	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	47.3s
Total de testes 1 Testes errados 1 Custo total $0.010 Tempo de resposta (médio) 47.3s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
Total de testes 1 Testes errados 1 Custo total $0.020 Tempo de resposta (médio) 114.1s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado