Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
Total de testes 1 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
Total de testes 1 Testes errados 1 Custo total $0.013 Tempo de resposta (médio) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
Total de testes 1 Testes errados 1 Custo total $0.013 Tempo de resposta (médio) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Total de testes 1 Testes errados 1 Custo total $0.005 Tempo de resposta (médio) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
Total de testes 1 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
Total de testes 1 Testes errados 1 Custo total $0.027 Tempo de resposta (médio) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
Total de testes 1 Testes errados 1 Custo total $0.075 Tempo de resposta (médio) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
Total de testes 1 Testes errados 1 Custo total $0.027 Tempo de resposta (médio) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
Total de testes 1 Testes errados 1 Custo total $0.012 Tempo de resposta (médio) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
Total de testes 1 Testes errados 1 Custo total $0.052 Tempo de resposta (médio) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
Total de testes 1 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
Total de testes 1 Testes errados 1 Custo total $0.045 Tempo de resposta (médio) 1.63s

←

1 5 6 7 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado