Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
Total de testes 1 Testes errados 1 Custo total $0.523 Tempo de resposta (médio) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Total de testes 1 Testes errados 1 Custo total $0.907 Tempo de resposta (médio) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Total de testes 1 Testes errados 1 Custo total $3.679 Tempo de resposta (médio) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Total de testes 1 Testes errados 1 Custo total $0.740 Tempo de resposta (médio) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Total de testes 1 Testes errados 1 Custo total $0.960 Tempo de resposta (médio) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Total de testes 1 Testes errados 1 Custo total $0.679 Tempo de resposta (médio) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
Total de testes 1 Testes errados 1 Custo total $0.228 Tempo de resposta (médio) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
Total de testes 1 Testes errados 1 Custo total $0.159 Tempo de resposta (médio) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Total de testes 1 Testes errados 1 Custo total $1.210 Tempo de resposta (médio) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
Total de testes 1 Testes errados 1 Custo total $0.175 Tempo de resposta (médio) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
Total de testes 1 Testes errados 1 Custo total $0.393 Tempo de resposta (médio) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
Total de testes 1 Testes errados 1 Custo total $0.323 Tempo de resposta (médio) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
Total de testes 1 Testes errados 1 Custo total $0.548 Tempo de resposta (médio) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
Total de testes 1 Testes errados 1 Custo total $0.027 Tempo de resposta (médio) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
Total de testes 1 Testes errados 1 Custo total $0.379 Tempo de resposta (médio) 2.76s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado