AI BENCHY Compare

xAI: Grok 4.20 vs Z.ai: GLM 5

Last updated at: 2026-04-02

Metric	Grok 4.20 Grok 4.20 medium Release: 2026-03-31	GLM 5 GLM 5 none Release: 2026-02-12

Metric	Grok 4.20 Grok 4.20 medium Release: 2026-03-31	GLM 5 GLM 5 none Release: 2026-02-12
Score	7.1	6.7
Rank	#40	#48
Consistency	8.2	10.0
Tests Correct
Attempt pass rate	66.7%	52.9%
Flaky tests	4	0
Total Runs	51	51
Cost per result	7.358	0.201
Total Cost	$0.663	$0.019
Input Price	$2.000 / 1M	$0.720 / 1M
Output Price	$6.000 / 1M	$2.300 / 1M
Output Tokens	1,494	1,551
Reasoning Tokens	97,078	0
Response Time (avg)	9.50s	3.77s
Response Time (max)	29.87s	11.07s
Response Time (total)	161.54s	37.66s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	8.2	7.9	83.3%	1		3.36s	280	8,476
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	5.8	2.8	66.7%	1		7.09s	47	4,252
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	7.3	5.9	83.3%	1		4.42s	40	5,474
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	6.4	7.7	55.6%	1		3.89s	143	8,028
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Quick Compare

Switch Comparison Pair

GPT-5 MinimediumvsGLM 5none Claude Sonnet 4.6nonevsGrok 4.20medium Nemotron 3 SupermediumFree AvailablevsGLM 5none Grok 4.1 FastmediumvsGLM 5none Hunter AlphamediumvsGLM 5none Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium GPT-5.4 MinimediumvsGLM 5none Gemma 4 31BnonevsGrok 4.20medium Mercury 2mediumvsGLM 5none GPT-5.3 ChatnonevsGrok 4.20medium GPT-5 NanomediumvsGLM 5none Kimi K2.5mediumvsGLM 5none