AI BENCHY Compare

Qwen: Qwen3.6 35B A3B vs Z.ai: GLM 5 Turbo

Last updated at: 2026-05-08

Metric	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Release: 2026-04-20	GLM 5 Turbo GLM 5 Turbo medium Release: 2026-03-15

Metric	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Release: 2026-04-20	GLM 5 Turbo GLM 5 Turbo medium Release: 2026-03-15
Score	8.0	8.1
Rank	#21	#20
Reliability	9.8	6.7
Consistency	9.1	8.4
Tests Correct
Attempt pass rate	74.5%	77.2%
Flaky tests	2	4
Total Runs	57	57
Cost per result	0.959	1.438
Total Cost	$0.116	$0.187
Input Price	$0.150 / 1M	$1.200 / 1M
Output Price	$1.000 / 1M	$4.000 / 1M
Output Tokens	15,018	12,217
Reasoning Tokens	108,331	40,252
Response Time (avg)	13.22s	18.85s
Response Time (max)	45.02s	194.23s
Response Time (total)	224.66s	358.15s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	1,154	12,385
GLM 5 Turbo	10.0	10.0	100.0%	0		4.82s	362	3,137

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		32.58s	3,294	15,116
GLM 5 Turbo	10.0	10.0	100.0%	0		12.26s	332	3,301

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0
GLM 5 Turbo	10.0	10.0	100.0%	0		13.88s	390	2,037

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	2,591	9,968
GLM 5 Turbo	10.0	10.0	100.0%	0		6.19s	577	3,632

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	6,193	39,116
GLM 5 Turbo	2.9	4.4	22.2%	2		71.07s	9,665	19,279

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	129	4,569
GLM 5 Turbo	6.1	3.1	66.7%	1		10.05s	60	2,216

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	219	7,404
GLM 5 Turbo	10.0	10.0	100.0%	0		5.38s	255	2,183

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	7.9	7.5	77.8%	1		5.98s	676	9,447
GLM 5 Turbo	8.7	7.9	77.8%	1		5.44s	315	2,702

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0
GLM 5 Turbo	10.0	10.0	100.0%	0		9.84s	241	446

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	762	10,326
GLM 5 Turbo	3.0	10.0	0.0%	0		40.17s	20	1,319

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 35B A3Bmedium Gemini 3 Flash PreviewnonevsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5 Turbomedium GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 35B A3Bmedium GPT-5.2 ChatnonevsGLM 5 Turbomedium GPT-5.3 ChatnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash LitelowvsGLM 5 Turbomedium DeepSeek V4 FlashhighvsQwen3.6 35B A3Bmedium