Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Compare:

Last updated at: 2026-03-06

Metric	StepFun: Step 3.5 Flash medium Release: 2026-02-01 Free Available	Z.ai: GLM 5 none Release: 2026-02-12
Rank	#13	#31
Avg Score	7.4	6.0
Consistency	9.1	10.0
Cost per result	0.000	0.200
Total Cost	$0.000	$0.018
Tests Correct
Attempt pass rate	68.8%	56.3%
Flaky tests	2	0
Total Runs	48	48
Output Tokens	71,452	1,548
Reasoning Tokens	155,147	0
Response Time (avg)	29.10s	4.03s
Response Time (max)	170.45s	11.07s
Response Time (total)	290.96s	36.30s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208
Z.ai: GLM 5	4.0	10.0	33.3%	0		3.39s	272	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984
Z.ai: GLM 5	10.0	10.0	0.0%	0		4.98s	406	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886
Z.ai: GLM 5	9.9	10.0	100.0%	0		5.78s	203	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436
Z.ai: GLM 5	10.0	10.0	0.0%	0		2.24s	19	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584
Z.ai: GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412
Z.ai: GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835
Z.ai: GLM 5	7.0	10.0	66.7%	0		2.05s	264	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802
Z.ai: GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Quick Compare

Switch Comparison Pair

GPT-5 MinimediumvsGLM 5none GPT-5.2 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumFree Available GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Grok 4.1 FastmediumvsGLM 5none Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumFree Available Kimi K2.5mediumvsGLM 5none GPT-5 NanomediumvsGLM 5none GPT-5.2mediumvsGLM 5none Qwen3.5-35B-A3BmediumvsGLM 5none Claude Opus 4.6mediumvsGLM 5none