Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Qwen3.7 Max 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
Total de testes 1 Testes errados 1 Custo total $0.177 Tempo de resposta (médio) 91.1s
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	3.0	$0.158	0/1	38.5s
Total de testes 1 Testes errados 1 Custo total $0.158 Tempo de resposta (médio) 38.5s
#27	GPT-5.4 Mini medium	OpenAI	1	3.0	$0.526	0/1	30.1s
Total de testes 1 Testes errados 1 Custo total $0.526 Tempo de resposta (médio) 30.1s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
Total de testes 1 Testes errados 1 Custo total $0.310 Tempo de resposta (médio) 103.8s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
Total de testes 1 Testes errados 1 Custo total $0.536 Tempo de resposta (médio) 85.1s
#30	Qwen3.6 Plus medium	Qwen	1	3.0	$0.294	0/1	47.5s
Total de testes 1 Testes errados 1 Custo total $0.294 Tempo de resposta (médio) 47.5s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
Total de testes 1 Testes errados 1 Custo total $1.418 Tempo de resposta (médio) 30.1s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	3.0	$0.068	0/1	2.68s
Total de testes 1 Testes errados 1 Custo total $0.068 Tempo de resposta (médio) 2.68s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
Total de testes 1 Testes errados 1 Custo total $0.317 Tempo de resposta (médio) 92.6s
#34	Gemini 3.1 Flash Lite medium	Google	1	3.0	$0.071	0/1	3.08s
Total de testes 1 Testes errados 1 Custo total $0.071 Tempo de resposta (médio) 3.08s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
Total de testes 1 Testes errados 1 Custo total $0.889 Tempo de resposta (médio) 130.3s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
Total de testes 1 Testes errados 1 Custo total $0.588 Tempo de resposta (médio) 52.9s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
Total de testes 1 Testes errados 1 Custo total $0.614 Tempo de resposta (médio) 44.5s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
Total de testes 1 Testes errados 1 Custo total $2.053 Tempo de resposta (médio) 63.2s
#41	DeepSeek V4 Pro high	DeepSeek	1	3.0	$0.157	0/1	34.0s
Total de testes 1 Testes errados 1 Custo total $0.157 Tempo de resposta (médio) 34.0s

←

1 2 3 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado