AI BENCHY Compare

OpenAI: GPT-5.4 vs Z.ai: GLM 5

Last updated at: 2026-03-15

Metric	GPT-5.4 GPT-5.4 medium Release: 2026-03-05	GLM 5 GLM 5 medium Release: 2026-02-12

Metric	GPT-5.4 GPT-5.4 medium Release: 2026-03-05	GLM 5 GLM 5 medium Release: 2026-02-12
Rank	#9	#13
Score	8.5	8.2
Consistency	8.5	8.0
Cost per result	6.601	0.933
Total Cost	$0.793	$0.103
Tests Correct
Attempt pass rate	83.3%	83.3%
Flaky tests	3	4
Total Runs	48	48
Output Tokens	1,756	19,773
Reasoning Tokens	46,642	36,459
Response Time (avg)	20.05s	16.16s
Response Time (max)	100.41s	28.96s
Response Time (total)	320.87s	129.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466
GLM 5	10.0	10.0	100.0%	0		22.26s	420	4,992

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Quick Compare

Switch Comparison Pair

GPT-5.2 ChatnonevsGLM 5medium Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium GPT-5.3 ChatnonevsGLM 5medium Gemini 3 Flash PreviewlowvsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Claude Sonnet 4.6nonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Claude Sonnet 4.6nonevsGPT-5.4medium