AI BENCHY Compare

IBM: Granite 4.1 8B vs Ling 2.6 1t

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-01

Métrica	Granite 4.1 8B Granite 4.1 8B none Lançamento: 2026-05-01	Ling 2.6 1t Ling 2.6 1t none Lançamento: 2026-04-23 Disponível grátis

Métrica	Granite 4.1 8B Granite 4.1 8B none Lançamento: 2026-05-01	Ling 2.6 1t Ling 2.6 1t none Lançamento: 2026-04-23 Disponível grátis
Pontuação	4.3	4.5
Posição	#135	#131
Confiabilidade	10.0	N/D
Consistência	10.0	10.0
Testes corretos
Taxa de acerto por tentativa	11.1%	16.7%
Testes instáveis	0	0
Execuções totais	54	54
Custo por resultado	0.110	0.000
Custo total	$0.003	$0.000
Preço de entrada	$0.050 / 1M	$0.000 / 1M
Preço de saída	$0.100 / 1M	$0.000 / 1M
Tokens de saída	2,712	2,434
Tokens de raciocínio	0	0
Tempo de resposta (médio)	767ms	8.79s
Tempo de resposta (máx.)	2.17s	25.72s
Tempo de resposta (total)	13.81s	158.19s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	903	0
Ling 2.6 1t	3.4	10.0	0.0%	0		6.55s	777	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	6.9	10.0	0.0%	0		1.07s	339	0
Ling 2.6 1t	5.5	10.0	0.0%	0		10.57s	381	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	3.0	10.0	0.0%	0		1.88s	396	0
Ling 2.6 1t	3.0	10.0	0.0%	0		23.53s	183	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	195	0
Ling 2.6 1t	10.0	10.0	100.0%	0		1.37s	285	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	24	0
Ling 2.6 1t	3.0	10.0	0.0%	0		1.04s	27	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	115	0
Ling 2.6 1t	5.0	10.0	0.0%	0		20.34s	140	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	66	0
Ling 2.6 1t	6.4	10.0	50.0%	0		5.36s	81	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	3.7	10.0	0.0%	0		635ms	431	0
Ling 2.6 1t	3.1	10.0	0.0%	0		11.76s	131	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	243	0
Ling 2.6 1t	3.0	10.0	0.0%	0		25.72s	429	0

Comparação rápida

Trocar par de comparação

Ling 2.6 1tnoneDisponível grátisvsQwen3.5-9Bmedium Granite 4.1 8BnonevsQwen3.5-9Bmedium Ling 2.6 1tnoneDisponível grátisvsGLM 4.7 Flashmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium Ling 2.6 1tnoneDisponível grátisvsQwen3 Coder Nextmedium Granite 4.1 8BnonevsQwen3 Coder Nextmedium Ling 2.6 1tnoneDisponível grátisvsNemotron 3 Nano Omni 30b A3b ReasoningmediumDisponível grátis Ling 2.6 1tnoneDisponível grátisvsElephant Alphamedium Ling 2.6 1tnoneDisponível grátisvsMiniMax M2.7medium Granite 4.1 8BnonevsNemotron 3 Nano Omni 30b A3b ReasoningmediumDisponível grátis Granite 4.1 8BnonevsElephant Alphamedium Granite 4.1 8BnonevsMiniMax M2.7medium