AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Z.ai: GLM 5

Last updated at: 2026-05-01

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	GLM 5 GLM 5 none Release: 2026-02-12

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	GLM 5 GLM 5 none Release: 2026-02-12
Score	7.6	6.6
Rank	#50	#70
Reliability	N/A	N/A
Consistency	9.1	9.6
Tests Correct
Attempt pass rate	70.4%	51.9%
Flaky tests	2	1
Total Runs	54	54
Cost per result	12.047	0.217
Total Cost	$1.446	$0.020
Input Price	$5.000 / 1M	$0.600 / 1M
Output Price	$25.000 / 1M	$2.080 / 1M
Output Tokens	29,829	1,959
Reasoning Tokens	18,938	0
Response Time (avg)	21.08s	4.23s
Response Time (max)	83.40s	11.07s
Response Time (total)	231.84s	46.51s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
GLM 5	5.6	3.5	33.3%	1		8.84s	408	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Quick Compare

Switch Comparison Pair

Nemotron 3 SupermediumFree AvailablevsGLM 5none Grok 4.1 FastmediumvsGLM 5none Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Mercury 2mediumvsGLM 5none Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGPT-5.3 Chatnone GPT-5 NanomediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone Laguna M.1mediumFree AvailablevsGLM 5none Grok 4.20mediumvsGLM 5none DeepSeek V4 ProhighvsGLM 5none