AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Z.ai: GLM 5V Turbo

Last updated at: 2026-06-03

Metric	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24	GLM 5V Turbo GLM 5V Turbo none Release: 2026-04-01

Metric	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24	GLM 5V Turbo GLM 5V Turbo none Release: 2026-04-01
Score	6.1	5.9
Rank	#100	#105
Reliability	8.9	10.0
Consistency	7.6	10.0
Tests Correct
Attempt pass rate	55.0%	40.0%
Flaky tests	6	0
Total Runs	60	60
Cost per result	2.660	0.606
Total Cost	$0.062	$0.049
Input Price	$0.435 / 1M	$1.200 / 1M
Output Price	$0.870 / 1M	$4.000 / 1M
Total Input Tokens	30,514	34,502
Output Tokens	12,244	1,760
Reasoning Tokens	53,958	0
Response Time (avg)	58.92s	3.04s
Response Time (max)	358.35s	6.51s
Response Time (total)	1119.51s	60.88s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	6.4	7.9	58.3%	1		16.53s	448	71	3,617
GLM 5V Turbo	4.8	10.0	25.0%	0		3.13s	555	281	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	2.7	5.7	16.7%	1		51.77s	240	105	2,641
GLM 5V Turbo	6.8	10.0	50.0%	0		3.77s	4,658	354	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		65.02s	14,016	465	5,914
GLM 5V Turbo	3.0	10.0	0.0%	0		6.51s	12,708	276	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	7.3	5.9	83.3%	1		23.62s	5,633	229	1,710
GLM 5V Turbo	10.0	10.0	100.0%	0		3.81s	7,107	204	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	2.9	7.2	11.1%	1		205.66s	430	10,529	28,089
GLM 5V Turbo	5.3	10.0	33.3%	0		2.09s	687	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	6.1	3.1	66.7%	1		25.09s	314	76	1,152
GLM 5V Turbo	4.6	10.0	0.0%	0		2.22s	477	114	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		41.16s	627	205	2,416
GLM 5V Turbo	6.5	10.0	50.0%	0		1.97s	636	60	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	5.9	7.2	55.6%	1		34.84s	544	139	4,019
GLM 5V Turbo	5.3	10.0	33.3%	0		2.40s	609	210	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		21.33s	8,079	372	593
GLM 5V Turbo	10.0	10.0	100.0%	0		4.86s	6,879	222	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	3.0	10.0	0.0%	0		39.14s	183	53	3,807
GLM 5V Turbo	3.0	10.0	0.0%	0		2.23s	186	15	0

Quick Compare

Switch Comparison Pair

DeepSeek V4 ProhighvsGPT-5 Nanomedium gpt-oss-120bmediumFree AvailablevsGLM 5V Turbonone Nemotron 3 SupermediumFree AvailablevsGLM 5V Turbonone Owl AlphamediumvsGLM 5V Turbonone DeepSeek V4 ProhighvsMimo V2 Omninone DeepSeek V4 ProhighvsGemma 4 26B A4BnoneFree Available DeepSeek V4 ProhighvsNemotron 3 SupermediumFree Available DeepSeek V4 Prohighvsgpt-oss-120bmediumFree Available CobuddymediumvsGLM 5V Turbonone DeepSeek V4 ProhighvsQwen3.5-Flashnone Seed-2.0-LitenonevsDeepSeek V4 Prohigh GPT-5 NanomediumvsGLM 5V Turbonone