Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

IBM: Granite 4.1 8B vs Qwen: Qwen3.6 Flash

Resumo

Comparação benchmark Granite 4.1 8B vs Qwen3.6 Flash: Qwen3.6 Flash lidera na pontuação média com 6.0 vs 4.0. Granite 4.1 8B tem menor custo de benchmark com $0.003 vs $0.015. Granite 4.1 8B é mais rápido com 728ms vs 1.60s, com taxas de acerto de 9.5% vs 33.3%.

Modelo recomendado: Granite 4.1 8B - Oferece o melhor compromisso geral: pontuação competitiva (4.0), custo menor que Qwen3.6 Flash e tempo de resposta equilibrado.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18

Métrica Granite 4.1 8B Granite 4.1 8B none Lançamento: 2026-05-01 Qwen3.6 Flash Qwen3.6 Flash none Lançamento: 2026-04-20
Pontuação 4.0 6.0
Posição #163 #102
Confiabilidade 10.0 10.0
Consistência 10.0 10.0
Testes corretos
Taxa de acerto por tentativa 9.5% 33.3%
Testes instáveis 0 0
Execuções totais 63 63
Custo por resultado 0.131 0.266
Custo total $0.003 $0.015
Preço de entrada $0.050 / 1M $0.188 / 1M
Preço de saída $0.100 / 1M $1.125 / 1M
Total de tokens de entrada 46,285 50,810
Tokens de saída 2,911 4,164
Tokens de raciocínio 0 0
Tempo de resposta (médio) 728ms 1.60s
Tempo de resposta (máx.) 2.17s 4.60s
Tempo de resposta (total) 15.29s 33.59s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#163 IBM: Granite 4.1 8B

none
Custo
$0.001
Tempo
3.2s
Tokens
491 tok

#102 Qwen3.6 Flash

none
Custo
$0.005
Tempo
20.1s
Tokens
4,211 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 4.9 10.0 25.0% 0 844ms 645 903 0
Qwen3.6 Flash 3.1 10.0 0.0% 0 1.63s 696 1,554 0
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 4.5 10.0 0.0% 0 775ms 8,344 525 0
Qwen3.6 Flash 5.4 10.0 33.3% 0 1.79s 6,488 889 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 3.0 10.0 0.0% 0 1.88s 19,089 396 0
Qwen3.6 Flash 3.0 10.0 0.0% 0 4.22s 24,675 315 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 3.0 10.0 0.0% 0 575ms 7,617 195 0
Qwen3.6 Flash 10.0 10.0 100.0% 0 2.13s 7,794 243 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 3.0 10.0 0.0% 0 357ms 768 24 0
Qwen3.6 Flash 5.3 10.0 33.3% 0 1.11s 789 15 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 4.0 10.0 0.0% 0 499ms 528 115 0
Qwen3.6 Flash 10.0 10.0 100.0% 0 947ms 522 132 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 3.6 9.9 0.0% 0 344ms 687 66 0
Qwen3.6 Flash 6.3 10.0 50.0% 0 1.10s 711 66 0
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 3.2 10.0 0.0% 0 608ms 672 432 0
Qwen3.6 Flash 3.5 10.0 0.0% 0 1.21s 714 669 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 10.0 10.0 100.0% 0 2.17s 7,719 243 0
Qwen3.6 Flash 10.0 10.0 100.0% 0 2.49s 8,211 272 0
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Granite 4.1 8B 3.0 10.0 0.0% 0 306ms 216 12 0
Qwen3.6 Flash 3.0 10.0 0.0% 0 649ms 210 9 0

Comparação rápida

Trocar par de comparação