AI BENCHY Compare

xAI: Grok 4.20 Multi-Agent Beta vs Z.ai: GLM 5 Turbo

Last updated at: 2026-03-15

Metric	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Release: 2026-03-12	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15

Metric	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Release: 2026-03-12	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15
Rank	#47	#53
Score	6.0	5.7
Consistency	7.1	9.5
Cost per result	97.178	0.467
Total Cost	$4.859	$0.028
Tests Correct
Attempt pass rate	52.1%	39.6%
Flaky tests	6	1
Total Runs	48	48
Output Tokens	293,634	1,264
Reasoning Tokens	291,260	0
Response Time (avg)	9.08s	2.92s
Response Time (max)	35.28s	8.21s
Response Time (total)	127.09s	46.72s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	5.8	4.4	66.7%	2		3.77s	28,392	27,808
GLM 5 Turbo	3.0	10.0	0.0%	0		3.01s	376	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5 Turbo	3.0	10.0	0.0%	0		4.89s	144	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051
GLM 5 Turbo	10.0	10.0	100.0%	0		2.47s	204	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647
GLM 5 Turbo	5.3	10.0	33.3%	0		1.97s	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746
GLM 5 Turbo	4.2	9.9	0.0%	0		2.18s	48	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322
GLM 5 Turbo	6.5	10.0	50.0%	0		2.13s	65	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686
GLM 5 Turbo	5.5	7.4	44.4%	1		2.43s	180	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Multi-Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5 Turbo	10.0	10.0	100.0%	0		8.21s	222	0

Quick Compare

Switch Comparison Pair

Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumFree AvailablevsGLM 5 Turbonone GPT-5.4nonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumFree AvailablevsGLM 5 Turbonone DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium Kimi K2.5nonevsGrok 4.20 Multi-Agent Betamedium