AI BENCHY Compare

Qwen: Qwen3.6 27B vs Z.ai: GLM 4.7 Flash

Summary

Qwen3.6 27B vs GLM 4.7 Flash benchmark comparison: Qwen3.6 27B leads on average score with 5.5 vs 4.9. GLM 4.7 Flash has the lower benchmark cost at $0.004 vs $0.025. GLM 4.7 Flash is faster at 2.86s vs 3.72s, with pass rates of 47.6% vs 36.5%.

Recommended model: Qwen3.6 27B - It has the strongest score in this comparison (5.5) and the best overall balance of cost and response time across all 2 models.

Last updated at: 2026-07-02

Metric	Qwen3.6 27B Qwen3.6 27B none Release: 2026-04-20	GLM 4.7 Flash GLM 4.7 Flash none Release: 2026-01-19

Metric	Qwen3.6 27B Qwen3.6 27B none Release: 2026-04-20	GLM 4.7 Flash GLM 4.7 Flash none Release: 2026-01-19
Score	5.5	4.9
Rank	#124	#146
Reliability	10.0	10.0
Consistency	7.6	8.8
Tests Correct
Attempt pass rate	47.6%	36.5%
Flaky tests	6	3
Total Runs	63	63
Cost per result	0.467	0.056
Total Cost	$0.025	$0.004
Input Price	$0.286 / 1M	$0.060 / 1M
Output Price	$2.400 / 1M	$0.400 / 1M
Total Input Tokens	52,721	38,745
Output Tokens	3,812	2,521
Reasoning Tokens	0	0
Response Time (avg)	3.72s	2.86s
Response Time (max)	11.82s	7.05s
Response Time (total)	78.08s	40.04s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#124 Qwen3.6 27B

none

Cost: $0.009
Time: 83.0s
Tokens: 4,549 tok

#146 GLM 4.7 Flash

none

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	3.8	3.7	41.7%	3		2.83s	696	490	0
GLM 4.7 Flash	5.2	7.9	41.7%	1		5.51s	555	438	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	5.5	10.0	33.3%	0		4.16s	7,913	539	0
GLM 4.7 Flash	4.3	10.0	0.0%	0		2.54s	7,256	650	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	3.0	10.0	0.0%	0		9.95s	22,497	1,401	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		3.22s	14,325	704	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	7.3	5.8	83.3%	1		2.06s	7,788	248	0
GLM 4.7 Flash	7.3	5.8	83.3%	1		4.82s	7,107	196	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	7.7	10.0	66.7%	0		3.03s	789	24	0
GLM 4.7 Flash	7.7	10.0	66.7%	0		744ms	687	19	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	5.2	9.9	0.0%	0		1.07s	522	72	0
GLM 4.7 Flash	4.0	10.0	0.0%	0		1.59s	477	134	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	6.2	5.8	66.7%	1		1.92s	711	49	0
GLM 4.7 Flash	6.5	10.0	50.0%	0		888ms	636	62	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	5.3	7.2	44.4%	1		5.15s	714	639	0
GLM 4.7 Flash	6.4	10.0	33.3%	0		1.20s	609	97	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	9.5	10.0	100.0%	0		6.74s	10,881	339	0
GLM 4.7 Flash	2.8	1.6	33.3%	1		7.05s	6,907	212	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 27B	3.0	10.0	0.0%	0		4.03s	210	11	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		692ms	186	9	0

Quick Compare

Switch Comparison Pair

CobuddymediumvsGLM 4.7 Flashnone MiniMax M2.5mediumvsGLM 4.7 Flashnone Qwen3 Coder NextmediumvsGLM 4.7 Flashnone Mistral Small 4mediumvsGLM 4.7 Flashnone MiniMax M2.7mediumvsGLM 4.7 Flashnone MiniMax M2.7mediumvsQwen3.6 27Bnone North Mini CodemediumFree AvailablevsQwen3.6 27Bnone Mistral Small 4mediumvsQwen3.6 27Bnone CobuddymediumvsQwen3.6 27Bnone Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bnone MiniMax M2.5mediumvsQwen3.6 27Bnone Gemma 4 31BmediumFree AvailablevsQwen3.6 27Bnone