AI BENCHY Compare

Xiaomi: MiMo-V2.5-Pro vs Z.ai: GLM 5.1

Last updated at: 2026-05-22

Metric	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Release: 2026-04-22	GLM 5.1 GLM 5.1 medium Release: 2026-04-07

Metric	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Release: 2026-04-22	GLM 5.1 GLM 5.1 medium Release: 2026-04-07
Score	7.6	7.4
Rank	#40	#51
Reliability	10.0	3.3
Consistency	8.9	8.3
Tests Correct
Attempt pass rate	68.3%	71.7%
Flaky tests	3	4
Total Runs	60	60
Cost per result	2.407	2.379
Total Cost	$0.289	$0.286
Input Price	$1.000 / 1M	$0.980 / 1M
Output Price	$3.000 / 1M	$3.080 / 1M
Output Tokens	4,957	11,475
Reasoning Tokens	80,301	71,876
Response Time (avg)	21.77s	32.22s
Response Time (max)	130.77s	172.60s
Response Time (total)	435.33s	612.25s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		3.26s	323	1,179
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	7.0	6.2	66.7%	1		81.67s	769	33,771
GLM 5.1	4.7	1.6	66.7%	2		145.56s	4,727	34,384

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		53.36s	348	11,870
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	7.3	5.8	83.3%	1		18.81s	260	8,383
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		37.87s	275	17,023
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	5.5	10.0	0.0%	0		4.02s	155	163
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	9.9	10.0	100.0%	0		2.77s	82	803
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	6.7	7.9	55.6%	1		5.16s	493	2,187
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		16.87s	311	2,908
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		12.46s	1,941	2,014
GLM 5.1	3.0	10.0	0.0%	0		29.40s	82	2,179

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash LitelowvsGLM 5.1medium GPT-5.3 ChatnonevsGLM 5.1medium GPT-5.2 ChatnonevsMiMo-V2.5-Promedium Gemini 3 Flash PreviewnonevsMiMo-V2.5-Promedium DeepSeek V4 FlashhighFree AvailablevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5-Promedium Ring-2.6-1TnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium Gemini 3.1 Flash LitelowvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium