AI BENCHY Compare

Z.ai: GLM 4.7 Flash vs GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT

Last updated at: 2026-04-02

Metric	GLM 4.7 Flash GLM 4.7 Flash medium Release: 2026-01-19	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Release: Unknown release date

Metric	GLM 4.7 Flash GLM 4.7 Flash medium Release: 2026-01-19	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Release: Unknown release date
Score	4.7	3.0
Rank	#82	#88
Consistency	6.6	10.0
Tests Correct
Attempt pass rate	39.2%	0.0%
Flaky tests	7	0
Total Runs	51	48
Cost per result	1.046	0.000
Total Cost	$0.042	$0.000
Input Price	$0.060 / 1M	$0.000 / 1M
Output Price	$0.400 / 1M	$0.000 / 1M
Output Tokens	38,719	0
Reasoning Tokens	65,465	0
Response Time (avg)	33.44s	0ms
Response Time (max)	174.55s	0ms
Response Time (total)	334.39s	0ms

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	1,122	6,110
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	2,585	20,648
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	584	2,755
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	33,000	25,394
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	18	2,138
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	388	2,181
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.90s	798	5,225
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Quick Compare

Switch Comparison Pair

Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium Grok 4.1 FastnonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Qwen3 Coder NextnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Nemotron 3 SupernoneFree AvailablevsGLM 4.7 Flashmedium Mistral Small 4nonevsGLM 4.7 Flashmedium Trinity Large PreviewnoneFree AvailablevsGLM 4.7 Flashmedium Kimi K2.5nonevsGLM 4.7 Flashmedium