AI BENCHY Compare

Inception: Mercury 2 vs Z.ai: GLM 5 Turbo

Last updated at: 2026-03-15

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15
Rank	#40	#53
Score	6.5	5.7
Consistency	8.4	9.5
Cost per result	0.631	0.467
Total Cost	$0.045	$0.028
Tests Correct
Attempt pass rate	54.2%	39.6%
Flaky tests	3	1
Total Runs	48	48
Output Tokens	3,708	1,264
Reasoning Tokens	45,921	0
Response Time (avg)	2.36s	2.92s
Response Time (max)	14.63s	8.21s
Response Time (total)	35.39s	46.72s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	8.1	9.8	66.7%	0		1.30s	2,531	2,410
GLM 5 Turbo	3.0	10.0	0.0%	0		3.01s	376	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
GLM 5 Turbo	3.0	10.0	0.0%	0		4.89s	144	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
GLM 5 Turbo	10.0	10.0	100.0%	0		2.47s	204	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
GLM 5 Turbo	5.3	10.0	33.3%	0		1.97s	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
GLM 5 Turbo	4.2	9.9	0.0%	0		2.18s	48	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
GLM 5 Turbo	6.5	10.0	50.0%	0		2.13s	65	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	3.9	7.5	22.2%	1		934ms	354	2,758
GLM 5 Turbo	5.5	7.4	44.4%	1		2.43s	180	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
GLM 5 Turbo	10.0	10.0	100.0%	0		8.21s	222	0

Quick Compare

Switch Comparison Pair

DeepSeek V3.2nonevsMercury 2medium MiniMax M2.5mediumFree AvailablevsGLM 5 Turbonone Mercury 2mediumvsQwen3.5-Flashnone Grok 4.20 Multi-Agent BetamediumvsGLM 5 Turbonone Seed-2.0-LitenonevsMercury 2medium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsGLM 5none gpt-oss-120bmediumFree AvailablevsGLM 5 Turbonone Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsHunter Alphanone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsQwen3.5-122B-A10Bnone