Qwen: Qwen3.5-9B vs Z.ai: GLM 4.7 Flash

GLM 4.7 Flash (medium) leads on average score with 4.3 vs 3.8. Qwen3.5-9B (medium) has the lower benchmark cost at $0.036 vs $0.166. Qwen3.5-9B (medium) is faster at 82.24s vs 142.59s, with pass rates of 25.8% vs 31.8%.

Recommended modelGLM 4.7 Flash (medium)It has the strongest score in this comparison (4.3) and the best overall balance of cost and response time across all 2 models.

Last updated at: 2026-07-25

Metric	Qwen3.5-9B Qwen3.5-9B medium Release: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash medium Release: 2026-01-19

Metric	Qwen3.5-9B Qwen3.5-9B medium Release: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash medium Release: 2026-01-19
Score	3.8	4.3
Rank	#220	#210
Reliability	5.0	7.8
Consistency	8.1	7.0
Tests Correct
Attempt pass rate	25.8%	31.8%
Flaky tests	5	8
Total Runs	66	66
Cost per result	1.187	4.147
Total Cost	$0.036	$0.166
Input Price	$0.100 / 1M	$0.060 / 1M
Output Price	$0.150 / 1M	$0.400 / 1M
Total Input Tokens	17,070	79,051
Output Tokens	29,045	43,754
Reasoning Tokens	209,516	374,109
Response Time (avg)	82.24s	142.59s
Response Time (max)	226.38s	1539.97s
Response Time (total)	1315.88s	1996.21s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#220 Qwen3.5-9B

medium

Cost: $0.001
Time: 35.9s
Tokens: 3,030 tok

#210 GLM 4.7 Flash

medium

Invalid SVG

Cost: $0.000
Time: 186.2s
Tokens: 12,112 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	555	1,122	6,110

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129
GLM 4.7 Flash	3.2	7.4	11.1%	1		55.33s	3,106	4,981	22,387

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0
GLM 4.7 Flash	2.9	6.0	16.7%	1		802.77s	59,030	2,585	305,678

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	7,107	584	2,755

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	643	33,000	25,394

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	318	18	2,138

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	636	388	2,181

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.93s	521	781	5,255

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	6,949	224	1,014

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694
GLM 4.7 Flash	3.0	10.0	0.0%	0		11.13s	186	71	1,197

Quick Compare

Switch Comparison Pair

gpt-oss-120bnoneFree AvailablevsQwen3.5-9Bmedium Grok 4.20nonevsGLM 4.7 Flashmedium Granite 4.1 8BnonevsQwen3.5-9Bmedium Laguna S 2.1noneFree AvailablevsGLM 4.7 Flashmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.20none Trinity Large PreviewnonevsGLM 4.7 Flashmedium KAT-Coder-Air V2.5nonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Ring-2.6-1TnonevsGLM 4.7 Flashmedium gpt-oss-120bnoneFree AvailablevsGLM 4.7 Flashmedium