AI BENCHY Compare

Qwen: Qwen3.6 27B vs Z.ai: GLM 5

Summary

Qwen3.6 27B vs GLM 5 benchmark comparison: Qwen3.6 27B leads on average score with 6.6 vs 6.0. GLM 5 has the lower benchmark cost at $0.027 vs $0.430. GLM 5 is faster at 4.03s vs 59.71s, with pass rates of 60.3% vs 44.4%.

Recommended model: GLM 5 - Its score stays close to the best score here (6.0 vs 6.6), while costing about 16.5x less than Qwen3.6 27B.

Last updated at: 2026-06-12

Metric	Qwen3.6 27B Qwen3.6 27B medium Release: 2026-04-20	GLM 5 GLM 5 none Release: 2026-02-12

Metric	Qwen3.6 27B Qwen3.6 27B medium Release: 2026-04-20	GLM 5 GLM 5 none Release: 2026-02-12
Score	6.6	6.0
Rank	#80	#106
Reliability	10.0	10.0
Consistency	8.2	9.7
Tests Correct
Attempt pass rate	60.3%	44.4%
Flaky tests	5	1
Total Runs	63	63
Cost per result	3.361	0.263
Total Cost	$0.430	$0.027
Input Price	$0.288 / 1M	$0.600 / 1M
Output Price	$3.100 / 1M	$1.920 / 1M
Total Input Tokens	39,376	37,135
Output Tokens	16,189	1,989
Reasoning Tokens	122,521	0
Response Time (avg)	59.71s	4.03s
Response Time (max)	168.22s	11.07s
Response Time (total)	1254.01s	56.37s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Qwen3.6 27B

medium

Cost: $0.009
Time: 39.6s
Tokens: 3,090 tok

#106 GLM 5

none

Cost: $0.007
Time: 32.1s
Tokens: 2,023 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311
GLM 5	4.8	10.0	25.0%	0		2.37s	510	275	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367
GLM 5	4.0	7.8	11.1%	1		5.12s	7,256	428	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689
GLM 5	3.0	10.0	0.0%	0		4.98s	12,812	406	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404
GLM 5	10.0	10.0	100.0%	0		5.78s	7,107	203	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352
GLM 5	3.0	10.0	0.0%	0		2.24s	643	19	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045
GLM 5	10.0	10.0	100.0%	0		3.27s	477	103	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548
GLM 5	10.0	10.0	100.0%	0		1.48s	636	61	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044
GLM 5	7.7	10.0	66.7%	0		1.91s	609	261	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954
GLM 5	10.0	10.0	100.0%	0		11.07s	6,899	220	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807
GLM 5	3.0	10.0	0.0%	0		3.62s	186	13	0

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsGLM 5none Gemini 3.5 FlashminimalvsQwen3.6 27Bmedium DeepSeek V4 ProhighvsGLM 5none GPT-5.5nonevsQwen3.6 27Bmedium DeepSeek V4 ProhighvsQwen3.6 27Bmedium Gemini 3 Flash PreviewnonevsQwen3.6 27Bmedium Qwen3.5-35B-A3BmediumvsGLM 5none DeepSeek V4 PrononevsQwen3.6 27Bmedium Gemma 4 31BmediumFree AvailablevsGLM 5none