AI BENCHY Compare

Qwen: Qwen3.5 Plus 2026-04-20 vs Z.ai: GLM 5 Turbo

Last updated at: 2026-05-29

Metric	Qwen3.5 Plus 2026-04-20 Qwen3.5 Plus 2026-04-20 medium Release: 2026-04-20	GLM 5 Turbo GLM 5 Turbo medium Release: 2026-03-15

Metric	Qwen3.5 Plus 2026-04-20 Qwen3.5 Plus 2026-04-20 medium Release: 2026-04-20	GLM 5 Turbo GLM 5 Turbo medium Release: 2026-03-15
Score	7.7	7.9
Rank	#40	#31
Reliability	10.0	10.0
Consistency	8.7	8.1
Tests Correct
Attempt pass rate	71.7%	76.7%
Flaky tests	3	5
Total Runs	60	60
Cost per result	2.789	1.871
Total Cost	$0.363	$0.244
Input Price	$0.300 / 1M	$1.200 / 1M
Output Price	$1.800 / 1M	$4.000 / 1M
Output Tokens	2,259	12,228
Reasoning Tokens	150,249	53,503
Response Time (avg)	43.65s	22.65s
Response Time (max)	189.38s	194.23s
Response Time (total)	872.90s	453.09s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		10.84s	215	7,748
GLM 5 Turbo	10.0	10.0	100.0%	0		4.82s	362	3,137

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	6.6	6.0	66.7%	1		137.55s	287	42,318
GLM 5 Turbo	7.3	5.8	83.3%	1		53.92s	346	16,607

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		92.41s	483	17,490
GLM 5 Turbo	10.0	10.0	100.0%	0		13.88s	390	2,037

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		38.32s	270	14,668
GLM 5 Turbo	10.0	10.0	100.0%	0		6.19s	577	3,632

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	2.9	7.2	11.1%	1		53.10s	63	28,414
GLM 5 Turbo	2.9	4.4	22.2%	2		71.07s	9,665	19,279

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	4.9	9.6	0.0%	0		25.30s	125	4,792
GLM 5 Turbo	6.1	3.1	66.7%	1		10.05s	60	2,216

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		20.25s	103	7,689
GLM 5 Turbo	10.0	10.0	100.0%	0		5.38s	255	2,183

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	8.2	7.2	88.9%	1		17.67s	338	9,800
GLM 5 Turbo	8.7	7.9	77.8%	1		5.23s	312	2,647

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		14.72s	348	2,164
GLM 5 Turbo	10.0	10.0	100.0%	0		9.84s	241	446

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	3.0	10.0	0.0%	0		92.57s	27	15,166
GLM 5 Turbo	3.0	10.0	0.0%	0		40.17s	20	1,319

Quick Compare

Switch Comparison Pair

Qwen3.7 MaxnonevsGLM 5 Turbomedium GPT-5.2 ChatnonevsGLM 5 Turbomedium Gemini 3.5 FlashminimalvsGLM 5 Turbomedium Gemini 3 Flash PreviewnonevsQwen3.5 Plus 2026-04-20medium DeepSeek V4 FlashhighFree AvailablevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium GPT-5.2 ChatnonevsQwen3.5 Plus 2026-04-20medium Gemini 3.5 FlashminimalvsQwen3.5 Plus 2026-04-20medium Gemini 3 Flash PreviewnonevsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5 Plus 2026-04-20medium DeepSeek V4 FlashhighFree AvailablevsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium