AI BENCHY Compare

Qwen: Qwen3.5 Plus 2026-02-15 vs Z.ai: GLM 5 Turbo

Last updated at: 2026-03-15

Metric	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Release: 2026-02-15	GLM 5 Turbo GLM 5 Turbo medium Release: 2026-03-15

Metric	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Release: 2026-02-15	GLM 5 Turbo GLM 5 Turbo medium Release: 2026-03-15
Rank	#35	#20
Score	7.0	7.9
Consistency	9.6	7.7
Cost per result	0.172	1.641
Total Cost	$0.016	$0.165
Tests Correct
Attempt pass rate	58.3%	75.0%
Flaky tests	1	5
Total Runs	48	48
Output Tokens	2,015	11,853
Reasoning Tokens	0	35,095
Response Time (avg)	2.65s	18.84s
Response Time (max)	6.65s	194.23s
Response Time (total)	26.52s	301.50s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		2.74s	514	0
GLM 5 Turbo	10.0	10.0	100.0%	0		5.01s	350	2,600

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		6.65s	314	0
GLM 5 Turbo	10.0	10.0	100.0%	0		13.88s	390	2,037

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.89s	243	0
GLM 5 Turbo	10.0	10.0	100.0%	0		6.19s	577	3,632

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		1.17s	17	0
GLM 5 Turbo	2.9	4.4	22.2%	2		71.07s	9,665	19,279

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	4.4	3.0	33.3%	1		2.26s	117	0
GLM 5 Turbo	6.1	3.1	66.7%	1		10.05s	60	2,216

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	72	0
GLM 5 Turbo	10.0	10.0	100.0%	0		5.38s	255	2,183

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	7.7	10.0	66.7%	0		2.82s	516	0
GLM 5 Turbo	7.3	5.8	55.6%	2		5.44s	315	2,702

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	222	0
GLM 5 Turbo	10.0	10.0	100.0%	0		9.84s	241	446

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewnonevsGLM 5 Turbomedium GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium GPT-5.3 ChatnonevsGLM 5 Turbomedium Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium GPT-5.2 ChatnonevsGLM 5 Turbomedium Hunter AlphamediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsGLM 5 Turbomedium Nemotron 3 Super 120b A12bmediumFree AvailablevsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsGLM 5 Turbomedium