Qwen3.7 Plus vs GLM 5.1 (medium)

Rank: #79
Total Output Tokens: 58,097
Response Time (avg): 12.09s
Total Cost: $0.106

Rank: #82
Total Output Tokens: 152,552
Response Time (avg): 46.77s
Total Cost: $0.535

Recommended model Qwen3.7 Plus

It has the best score here (7.2), while costing about 5.0x less than GLM 5.1 (medium).

Detailed comparison

Metric	Qwen3.7 Plus Qwen3.7 Plus none Release: 2026-06-03	GLM 5.1 GLM 5.1 medium Release: 2026-04-07

Metric	Qwen3.7 Plus Qwen3.7 Plus none Release: 2026-06-03	GLM 5.1 GLM 5.1 medium Release: 2026-04-07
Score	7.2	7.1
Rank	#79	#82
Reliability	10.0	8.3
Consistency	10.0	8.4
Tests Correct
Attempt pass rate	50.0%	69.7%
Flaky tests	0	4
Total Runs	66	66
Cost per result	1.014	4.202
Total Cost	$0.106	$0.535
Input Price	$0.320 / 1M	$0.966 / 1M
Output Price	$1.280 / 1M	$3.036 / 1M
Total Input Tokens	98,824	82,623
Output Tokens	58,097	16,089
Reasoning Tokens	0	136,463
Response Time (avg)	12.09s	46.77s
Response Time (max)	206.03s	308.75s
Response Time (total)	265.89s	982.16s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#79 Qwen3.7 Plus

none

Cost: $0.019
Time: 213.5s
Tokens: 11,960 tok

#82 GLM 5.1

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	6.5	10.0	50.0%	0		1.38s	696	349	0
GLM 5.1	10.0	10.0	100.0%	0		8.31s	555	401	5,122

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	5.5	10.0	33.3%	0		2.15s	7,911	639	0
GLM 5.1	4.6	3.7	44.5%	2		109.63s	5,702	4,871	37,826

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	10.0	10.0	100.0%	0		117.70s	71,266	56,024	0
GLM 5.1	9.8	10.0	100.0%	0		175.93s	66,926	4,761	65,248

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	10.0	10.0	100.0%	0		1.43s	7,794	243	0
GLM 5.1	10.0	10.0	100.0%	0		9.33s	7,107	991	4,552

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	3.0	10.0	0.0%	0		868ms	789	18	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	489	969	11,314

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	5.3	10.0	0.0%	0		1.33s	522	78	0
GLM 5.1	10.0	10.0	100.0%	0		20.95s	477	2,875	2,875

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	6.3	10.0	50.0%	0		929ms	711	72	0
GLM 5.1	6.4	5.8	66.7%	1		7.47s	634	204	1,617

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	7.7	10.0	66.7%	0		1.71s	714	443	0
GLM 5.1	8.2	7.2	88.9%	1		31.64s	609	935	5,730

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	10.0	10.0	100.0%	0		3.54s	8,211	222	0
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	3.0	10.0	0.0%	0		1.21s	210	9	0
GLM 5.1	3.0	10.0	0.0%	0		29.40s	124	82	2,179

Quick Compare

Switch Comparison Pair

Qwen3.7 PlusnonevsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsQwen3.7 Plusnone Kimi K2.6mediumvsQwen3.7 Plusnone Qwen3.7 PlusnonevsStep 3.7 Flashlow KAT-Coder-Pro V2.5highvsGLM 5.1medium Step 3.7 FlashlowvsGLM 5.1medium Gemini 3.5 FlashnonevsGLM 5.1medium Gemini 3.1 Flash LitemediumvsQwen3.7 Plusnone Claude Opus 4.8nonevsGLM 5.1medium DeepSeek V3.2mediumvsQwen3.7 Plusnone Gemini 3.1 Flash Lite PreviewmediumvsQwen3.7 Plusnone