Ranking de Conhecimentos gerais x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido. Ordenar por: Custo total ↑.

Modelos exibidos

Falhas totais

133

Modelo mais afetado

Owl Alpha 1

Motivos de falha

Resposta incorreta133 Erro de API13 Sem resposta8

Categorias

Específico do domínio325 Truques anti-IA250 Programação201 Resolução de quebra-cabeças154 Conhecimentos gerais133 Seguimento de instruções54 Combinado53 Inteligência geral36 Análise e extração de dados35 Chamada de ferramentas2

133/133

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.38s
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.50s
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 37.4s
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 37.0s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
Total de testes 1 Testes errados 1 Custo total $0.001 Tempo de resposta (médio) 1.06s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
Total de testes 1 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 2.71s
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Total de testes 1 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 306ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
Total de testes 1 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 1.25s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
Total de testes 1 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 778ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Total de testes 1 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 692ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Total de testes 1 Testes errados 1 Custo total $0.005 Tempo de resposta (médio) 588ms
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
Total de testes 1 Testes errados 1 Custo total $0.006 Tempo de resposta (médio) 2.32s
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
Total de testes 1 Testes errados 1 Custo total $0.006 Tempo de resposta (médio) 794ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
Total de testes 1 Testes errados 1 Custo total $0.007 Tempo de resposta (médio) 8.94s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
Total de testes 1 Testes errados 1 Custo total $0.007 Tempo de resposta (médio) 3.89s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Conhecimentos gerais: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado