AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Xiaomi: MiMo-V2.5-Pro

Last updated at: 2026-04-22

Metric	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Release: 2026-04-22

Metric	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Release: 2026-04-22
Score	9.6	8.1
Rank	#2	#23
Consistency	10.0	8.8
Tests Correct
Attempt pass rate	94.4%	75.9%
Flaky tests	0	3
Total Runs	54	54
Cost per result	3.400	1.674
Total Cost	$0.578	$0.201
Input Price	$2.000 / 1M	$1.000 / 1M
Output Price	$12.000 / 1M	$3.000 / 1M
Output Tokens	1,932	2,735
Reasoning Tokens	40,542	52,571
Response Time (avg)	15.96s	16.17s
Response Time (max)	40.61s	84.22s
Response Time (total)	175.52s	291.09s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		2.95s	273	1,363

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		32.58s	543	7,485

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		53.36s	348	11,870

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
MiMo-V2.5-Pro	7.3	5.8	83.3%	1		18.81s	260	8,383

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		37.87s	275	17,023

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
MiMo-V2.5-Pro	5.1	3.3	33.3%	1		4.27s	150	549

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
MiMo-V2.5-Pro	9.9	10.0	100.0%	0		2.77s	82	803

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
MiMo-V2.5-Pro	6.7	7.9	55.6%	1		5.16s	493	2,187

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		16.87s	311	2,908

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3 Flash PreviewnonevsMiMo-V2.5-Promedium GPT-5.2 ChatnonevsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5-Promedium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium GPT-5.3 ChatnonevsMiMo-V2.5-Promedium Claude Sonnet 4.6nonevsMiMo-V2.5-Promedium Gemini 3 Flash PreviewlowvsMiMo-V2.5-Promedium Claude Opus 4.7nonevsMiMo-V2.5-Promedium Gemma 4 31BnoneFree AvailablevsMiMo-V2.5-Promedium Qwen3.5 Plus 2026-02-15nonevsMiMo-V2.5-Promedium MiMo-V2.5-PromediumvsGLM 5none