AI BENCHY Compare

Qwen: Qwen3.5-9B vs Z.ai: GLM 5 Turbo

Last updated at: 2026-05-22

Metric	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15

Metric	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15
Score	4.6	5.3
Rank	#142	#125
Reliability	10.0	10.0
Consistency	9.7	9.3
Tests Correct
Attempt pass rate	21.7%	33.3%
Flaky tests	1	2
Total Runs	60	60
Cost per result	0.120	0.602
Total Cost	$0.005	$0.037
Input Price	$0.040 / 1M	$1.200 / 1M
Output Price	$0.150 / 1M	$4.000 / 1M
Output Tokens	3,984	1,809
Reasoning Tokens	0	0
Response Time (avg)	1.69s	2.83s
Response Time (max)	5.91s	8.21s
Response Time (total)	33.84s	56.58s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	582	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.84s	382	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	4.4	6.7	16.7%	1		5.39s	1,033	0
GLM 5 Turbo	4.4	6.7	16.7%	1		2.58s	523	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	1,255	0
GLM 5 Turbo	3.0	10.0	0.0%	0		4.89s	144	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	249	0
GLM 5 Turbo	10.0	10.0	100.0%	0		2.47s	204	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	24	0
GLM 5 Turbo	5.3	10.0	33.3%	0		1.97s	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	99	0
GLM 5 Turbo	4.2	9.9	0.0%	0		2.18s	48	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	75	0
GLM 5 Turbo	6.5	10.0	50.0%	0		2.13s	65	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.1	10.0	0.0%	0		683ms	388	0
GLM 5 Turbo	5.5	7.4	44.4%	1		2.43s	180	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0
GLM 5 Turbo	10.0	10.0	100.0%	0		8.21s	222	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.0	10.0	0.0%	0		2.32s	6	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.37s	16	0

Quick Compare

Switch Comparison Pair

Elephant AlphamediumvsGLM 5 Turbonone Mistral Small 4mediumvsGLM 5 Turbonone MiniMax M2.5mediumFree AvailablevsGLM 5 Turbonone Qwen3.5-9BnonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsGLM 5 Turbonone gpt-oss-120bmediumFree AvailablevsGLM 5 Turbonone MiniMax M2.7mediumvsQwen3.5-9Bnone CobuddymediumFree AvailablevsGLM 5 Turbonone Owl AlphamediumvsGLM 5 Turbonone Qwen3 Coder NextmediumvsGLM 5 Turbonone Nemotron 3 SupermediumFree AvailablevsGLM 5 Turbonone Elephant AlphamediumvsQwen3.5-9Bnone