Step 3.7 Flash (high) vs GLM 5.1 (medium)

Recommended model GLM 5.1 (medium)

It has the best score here (7.1), while costing about 2.3x less than Step 3.7 Flash (high).

Detailed comparison

Metric	Step 3.7 Flash Step 3.7 Flash high Release: 2026-05-29	GLM 5.1 GLM 5.1 medium Release: 2026-04-07

Metric	Step 3.7 Flash Step 3.7 Flash high Release: 2026-05-29	GLM 5.1 GLM 5.1 medium Release: 2026-04-07
Score	6.9	7.1
Rank	#94	#82
Reliability	10.0	8.3
Consistency	8.0	8.4
Tests Correct
Attempt pass rate	63.6%	69.7%
Flaky tests	5	4
Total Runs	66	66
Cost per result	10.973	4.202
Total Cost	$1.207	$0.535
Input Price	$0.200 / 1M	$0.966 / 1M
Output Price	$1.150 / 1M	$3.036 / 1M
Total Input Tokens	98,691	82,623
Output Tokens	1,032,395	16,089
Reasoning Tokens	0	136,463
Response Time (avg)	64.68s	46.77s
Response Time (max)	364.99s	308.75s
Response Time (total)	1423.01s	982.16s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

high

medium

Invalid SVG

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0
GLM 5.1	10.0	10.0	100.0%	0		8.31s	555	401	5,122

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0
GLM 5.1	4.6	3.7	44.5%	2		109.63s	5,702	4,871	37,826

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	8.7	6.9	83.3%	1		41.23s	73,938	49,842	0
GLM 5.1	9.8	10.0	100.0%	0		175.93s	66,926	4,761	65,248

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0
GLM 5.1	10.0	10.0	100.0%	0		9.33s	7,107	991	4,552

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	489	969	11,314

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0
GLM 5.1	10.0	10.0	100.0%	0		20.95s	477	2,875	2,875

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0
GLM 5.1	6.4	5.8	66.7%	1		7.47s	634	204	1,617

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0
GLM 5.1	8.2	7.2	88.9%	1		31.64s	609	935	5,730

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0
GLM 5.1	3.0	10.0	0.0%	0		29.40s	124	82	2,179

Switch Comparison Pair