Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica	StepFun: Step 3.5 Flash medium Lançamento: 2026-02-01 Disponível grátis	Z.ai: GLM 5 none Lançamento: 2026-02-12
Posição	#13	#31
Pontuação média	7.4	6.0
Consistência	9.1	10.0
Custo por resultado	0.000	0.200
Custo total	$0.000	$0.018
Testes corretos
Taxa de acerto por tentativa	68.8%	56.3%
Testes instáveis	2	0
Execuções totais	48	48
Tokens de saída	71,452	1,548
Tokens de raciocínio	155,147	0
Tempo de resposta (médio)	29.10s	4.03s
Tempo de resposta (máx.)	170.45s	11.07s
Tempo de resposta (total)	290.96s	36.30s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208
Z.ai: GLM 5	4.0	10.0	33.3%	0		3.39s	272	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984
Z.ai: GLM 5	10.0	10.0	0.0%	0		4.98s	406	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886
Z.ai: GLM 5	9.9	10.0	100.0%	0		5.78s	203	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436
Z.ai: GLM 5	10.0	10.0	0.0%	0		2.24s	19	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584
Z.ai: GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412
Z.ai: GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835
Z.ai: GLM 5	7.0	10.0	66.7%	0		2.05s	264	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802
Z.ai: GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Comparação rápida

Trocar par de comparação

GPT-5 MinimediumvsGLM 5none GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponível grátis Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponível grátis GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponível grátis Grok 4.1 FastmediumvsGLM 5none Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponível grátis Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponível grátis Kimi K2.5mediumvsGLM 5none GPT-5 NanomediumvsGLM 5none GPT-5.2mediumvsGLM 5none Qwen3.5-35B-A3BmediumvsGLM 5none Claude Opus 4.6mediumvsGLM 5none