Navegação
AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs StepFun: Step 3.5 Flash

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica Qwen: Qwen3.5-122B-A10B medium Lançamento: 2026-02-24 StepFun: Step 3.5 Flash medium Lançamento: 2026-02-01 Disponível grátis
Posição #10 #13
Pontuação média 7.7 7.4
Consistência 9.0 9.1
Custo por resultado 4.095 0.000
Custo total $0.492 $0.000
Testes corretos
Taxa de acerto por tentativa 79.2% 68.8%
Testes instáveis 2 2
Execuções totais 48 (16 x 3) 48 (16 x 3)
Tokens de saída 17,292 71,452
Tokens de raciocínio 145,625 155,147
Tempo de resposta (médio) 29.74s 29.10s
Tempo de resposta (máx.) 119.29s 170.45s
Tempo de resposta (total) 475.83s 290.96s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 6.99s 248 10,486
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 18.54s 13,924 17,208
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 483 11,337
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 1,176 12,984
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 9.9 10.0 100.0% 0 23.41s 270 16,558
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 600 13,886
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 10.0 7.2 11.1% 1 63.40s 15,537 64,889
StepFun: Step 3.5 Flash 4.0 7.2 44.4% 1 170.45s 45,350 90,436
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 10.0 2.2 33.3% 1 34.11s 66 7,592
StepFun: Step 3.5 Flash 6.0 10.0 0.0% 0 6.54s 2,214 2,584
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 77 7,372
StepFun: Step 3.5 Flash 9.0 6.8 83.3% 1 4.98s 2,284 3,412
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.18s 289 26,165
StepFun: Step 3.5 Flash 4.0 10.0 33.3% 0 7.72s 5,629 10,835
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Qwen: Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 322 1,226
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 275 3,802

Comparação rápida

Trocar par de comparação