AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs Z.ai: GLM 5.1

Last updated at: 2026-04-30

Metric	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17	GLM 5.1 GLM 5.1 medium Release: 2026-04-07

Metric	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17	GLM 5.1 GLM 5.1 medium Release: 2026-04-07
Score	7.6	7.8
Rank	#50	#45
Reliability	N/A	N/A
Consistency	9.0	8.6
Tests Correct
Attempt pass rate	68.5%	75.9%
Flaky tests	2	3
Total Runs	54	54
Cost per result	0.747	1.674
Total Cost	$0.083	$0.201
Input Price	$0.200 / 1M	$1.050 / 1M
Output Price	$1.250 / 1M	$3.500 / 1M
Output Tokens	2,946	8,005
Reasoning Tokens	58,132	49,090
Response Time (avg)	11.21s	24.13s
Response Time (max)	94.06s	118.52s
Response Time (total)	201.80s	410.25s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	8.3	10.0	75.0%	0		4.52s	683	2,254
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	10.0	10.0	100.0%	0		13.41s	472	3,616
GLM 5.1	4.7	1.6	66.7%	1		118.52s	1,339	13,777

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	9.8	10.0	100.0%	0		24.13s	349	5,719
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	10.0	10.0	100.0%	0		2.54s	234	516
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	5.9	7.2	55.6%	1		38.18s	60	43,325
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	4.5	10.0	0.0%	0		4.15s	179	443
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	9.8	10.0	100.0%	0		1.88s	95	521
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	4.0	7.1	22.2%	1		3.65s	640	1,356
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	10.0	10.0	100.0%	0		7.71s	234	382
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Quick Compare

Switch Comparison Pair

GPT-5.4 NanomediumvsQwen3.6 Max Previewnone DeepSeek V4 FlashhighvsGLM 5.1medium GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Qwen3.6 Max PreviewnonevsGLM 5.1medium DeepSeek V4 FlashhighvsGPT-5.4 Nanomedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Gemini 3 Flash PreviewnonevsGLM 5.1medium HY3 PreviewlowFree AvailablevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Nanomedium