Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Compare:

Last updated at: 2026-03-06

Metric	StepFun: Step 3.5 Flash medium Release: 2026-02-01 Free Available	Z.ai: GLM 5 medium Release: 2026-02-12
Rank	#13	#14
Avg Score	7.4	7.4
Consistency	9.1	8.0
Cost per result	0.000	0.933
Total Cost	$0.000	$0.103
Tests Correct
Attempt pass rate	68.8%	83.3%
Flaky tests	2	4
Total Runs	48 (16 x 3)	48 (16 x 3)
Output Tokens	71,452	19,773
Reasoning Tokens	155,147	36,459
Response Time (avg)	29.10s	16.16s
Response Time (max)	170.45s	28.96s
Response Time (total)	290.96s	129.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208
Z.ai: GLM 5	10.0	10.0	100.0%	0		22.26s	420	4,992

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984
Z.ai: GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886
Z.ai: GLM 5	5.0	5.6	83.3%	1		8.90s	567	3,734

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436
Z.ai: GLM 5	10.0	4.4	33.3%	2		0ms	13,176	14,137

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584
Z.ai: GLM 5	5.0	3.1	66.7%	1		14.69s	2,020	2,248

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412
Z.ai: GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835
Z.ai: GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802
Z.ai: GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Quick Compare

Switch Comparison Pair

GPT-5.2 ChatnonevsGLM 5medium GPT-5.2 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumFree Available GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumFree Available Claude Sonnet 4.6nonevsGLM 5medium Claude Sonnet 4.6nonevsStep 3.5 FlashmediumFree Available