Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

117

Modelo mais afetado

Claude Opus 4.7 1

Motivos de falha

Resposta incorreta117

Categorias

Específico do domínio283 Truques anti-IA230 Resolução de quebra-cabeças144 Conhecimentos gerais117 Seguimento de instruções51 Combinado50 Programação41 Análise e extração de dados29 Inteligência geral25 Chamada de ferramentas2

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Testes corretos	Tempo de resposta (médio)
#3	Claude Opus 4.7 medium	Anthropic	1	3.0	0/1	2.25s
#4	GPT-5.5 medium	OpenAI	1	2.8	0/1	37.9s
#5	Claude Opus 4.7 none	Anthropic	1	3.0	0/1	1.46s
#6	GPT-5.5 low	OpenAI	1	3.0	0/1	10.1s
#9	Qwen3.6 Max Preview medium	Qwen	1	3.0	0/1	60.6s
#11	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	0/1	48.3s
#12	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	0/1	103.8s
#13	GPT-5.3-Codex medium	OpenAI	1	2.8	0/1	14.4s
#14	Gemma 4 31B medium	Google	1	3.0	0/1	90.1s
#17	Qwen3.5-27B medium	Qwen	1	3.0	0/1	85.1s
#19	GLM 5 medium	Z.ai	1	3.0	0/1	67.4s
#20	GLM 5 Turbo medium	Z.ai	1	3.0	0/1	40.2s
#21	Qwen3.6 35B A3B medium	Qwen	1	3.0	0/1	32.9s
#22	HY3 Preview high	Tencent	1	3.0	0/1	47.7s
#23	Gemini 3.1 Flash Lite Preview medium	Google	1	3.0	0/1	2.68s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado