Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Resumo

Comparação benchmark Step 3.5 Flash vs GLM 5: Step 3.5 Flash lidera na pontuação média com 6.6 vs 6.0. GLM 5 tem menor custo de benchmark com $0.027 vs $0.070. GLM 5 é mais rápido com 4.03s vs 72.53s, com taxas de acerto de 54.0% vs 44.4%.

Modelo recomendado: GLM 5 - A pontuação fica perto da melhor aqui (6.0 vs 6.6) e custa cerca de 2.6x menos que Step 3.5 Flash.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18

Métrica Step 3.5 Flash Step 3.5 Flash medium Lançamento: 2026-02-01 GLM 5 GLM 5 none Lançamento: 2026-02-12
Pontuação 6.6 6.0
Posição #80 #101
Confiabilidade 10.0 10.0
Consistência 8.9 9.7
Testes corretos
Taxa de acerto por tentativa 54.0% 44.4%
Testes instáveis 1 1
Execuções totais 60 63
Custo por resultado 0.198 0.263
Custo total $0.070 $0.027
Preço de entrada $0.090 / 1M $0.600 / 1M
Preço de saída $0.300 / 1M $1.920 / 1M
Total de tokens de entrada 34,431 37,135
Tokens de saída 91,587 1,989
Tokens de raciocínio 195,973 0
Tempo de resposta (médio) 72.53s 4.03s
Tempo de resposta (máx.) 453.94s 11.07s
Tempo de resposta (total) 1015.47s 56.37s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Step 3.5 Flash

medium
Custo
$0.008
Tempo
277.1s
Tokens
23,695 tok

#101 GLM 5

none
Custo
$0.007
Tempo
32.1s
Tokens
2,023 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 10.0 10.0 100.0% 0 40.57s 694 20,391 24,176
GLM 5 4.8 10.0 25.0% 0 2.37s 510 275 0
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 2.4 5.2 0.0% 0 258.38s 2,211 13,207 22,429
GLM 5 4.0 7.8 11.1% 1 5.12s 7,256 428 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 13,638 1,176 12,984
GLM 5 3.0 10.0 0.0% 0 4.98s 12,812 406 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 7,368 600 13,886
GLM 5 10.0 10.0 100.0% 0 5.78s 7,107 203 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 5.3 7.2 44.4% 1 170.45s 673 45,350 90,436
GLM 5 3.0 10.0 0.0% 0 2.24s 643 19 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 5.5 10.0 0.0% 0 22.39s 509 240 3,506
GLM 5 10.0 10.0 100.0% 0 3.27s 477 103 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 8.3 10.0 50.0% 0 4.78s 705 2,364 3,521
GLM 5 10.0 10.0 100.0% 0 1.48s 636 61 0
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 5.3 10.0 33.3% 0 7.22s 711 5,630 10,861
GLM 5 7.7 10.0 66.7% 0 1.91s 609 261 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 7,701 275 3,802
GLM 5 10.0 10.0 100.0% 0 11.07s 6,899 220 0
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Step 3.5 Flash 3.0 10.0 0.0% 0 108.45s 221 2,354 10,372
GLM 5 3.0 10.0 0.0% 0 3.62s 186 13 0

Comparação rápida

Trocar par de comparação