AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs Z.ai: GLM 5.1

Last updated at: 2026-04-30

Metric	Qwen3.6 Max Preview Qwen3.6 Max Preview none Release: 2026-04-20	GLM 5.1 GLM 5.1 medium Release: 2026-04-07

Metric	Qwen3.6 Max Preview Qwen3.6 Max Preview none Release: 2026-04-20	GLM 5.1 GLM 5.1 medium Release: 2026-04-07
Score	7.5	7.8
Rank	#51	#45
Reliability	10.0	N/A
Consistency	9.1	8.6
Tests Correct
Attempt pass rate	68.5%	75.9%
Flaky tests	2	3
Total Runs	54	54
Cost per result	0.752	1.674
Total Cost	$0.083	$0.201
Input Price	$1.040 / 1M	$1.050 / 1M
Output Price	$6.240 / 1M	$3.500 / 1M
Output Tokens	4,732	8,005
Reasoning Tokens	0	49,090
Response Time (avg)	3.38s	24.13s
Response Time (max)	20.51s	118.52s
Response Time (total)	60.83s	410.25s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0
GLM 5.1	4.7	1.6	66.7%	1		118.52s	1,339	13,777

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.45s	69	0
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Quick Compare

Switch Comparison Pair

Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone DeepSeek V4 FlashhighvsGLM 5.1medium GPT-5.3 ChatnonevsGLM 5.1medium GPT-5.2mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Kimi K2.6mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2.5medium