AI BENCHY Compare

DeepSeek: DeepSeek V4 Flash vs Z.ai: GLM 5V Turbo

Last updated at: 2026-04-25

Metric	DeepSeek V4 Flash DeepSeek V4 Flash high Release: 2026-04-24	GLM 5V Turbo GLM 5V Turbo medium Release: 2026-04-01

Metric	DeepSeek V4 Flash DeepSeek V4 Flash high Release: 2026-04-24	GLM 5V Turbo GLM 5V Turbo medium Release: 2026-04-01
Score	7.8	7.8
Rank	#36	#37
Reliability	10.0	N/A
Consistency	7.8	7.5
Tests Correct
Attempt pass rate	79.6%	77.8%
Flaky tests	5	6
Total Runs	54	54
Cost per result	0.277	2.643
Total Cost	$0.031	$0.291
Input Price	$0.140 / 1M	$1.200 / 1M
Output Price	$0.280 / 1M	$4.000 / 1M
Output Tokens	1,765	2,351
Reasoning Tokens	90,299	58,941
Response Time (avg)	45.41s	14.96s
Response Time (max)	218.13s	67.08s
Response Time (total)	817.30s	269.32s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	8.3	10.0	75.0%	0		28.51s	140	7,770
GLM 5V Turbo	7.2	6.1	75.0%	2		10.76s	587	7,872

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	10.0	10.0	100.0%	0		62.48s	369	9,361
GLM 5V Turbo	10.0	10.0	100.0%	0		13.78s	404	4,628

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	10.0	10.0	100.0%	0		76.57s	465	7,347
GLM 5V Turbo	6.9	3.8	66.7%	1		15.06s	403	2,523

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	10.0	10.0	100.0%	0		28.03s	201	1,179
GLM 5V Turbo	10.0	10.0	100.0%	0		9.60s	236	4,333

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	4.1	4.4	44.5%	2		100.31s	27	59,249
GLM 5V Turbo	5.3	7.2	44.4%	1		38.15s	32	29,035

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	6.1	3.1	66.7%	1		25.15s	79	632
GLM 5V Turbo	10.0	10.0	100.0%	0		11.09s	131	2,183

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	10.0	10.0	100.0%	0		15.36s	63	1,622
GLM 5V Turbo	9.9	10.0	100.0%	0		3.74s	72	1,813

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	6.4	4.5	77.8%	2		25.53s	193	2,597
GLM 5V Turbo	7.7	7.3	77.8%	1		10.91s	193	5,789

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Flash	10.0	10.0	100.0%	0		74.73s	228	542
GLM 5V Turbo	7.0	3.7	66.7%	1		12.53s	293	765

Quick Compare

Switch Comparison Pair

DeepSeek V4 FlashhighvsQwen3.5-Flashmedium DeepSeek V4 FlashhighvsGLM 5.1medium DeepSeek V4 FlashhighvsStep 3.5 Flashmedium DeepSeek V4 FlashhighvsGemini 3.1 Flash Lite Previewnone DeepSeek V4 FlashhighvsGPT-5.2 Chatnone DeepSeek V4 FlashhighvsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium GPT-5.2 ChatnonevsGLM 5V Turbomedium DeepSeek V4 FlashhighvsKimi K2.6medium DeepSeek V4 FlashhighvsMiMo-V2-Omnimedium GPT-5.3 ChatnonevsGLM 5V Turbomedium DeepSeek V4 FlashhighvsGPT-5.3 Chatnone