AI BENCHY Compare

Qwen: Qwen3.5 Plus 2026-04-20 vs Xiaomi: MiMo-V2.5-Pro

Last updated at: 2026-04-27

Metric	Qwen3.5 Plus 2026-04-20 Qwen3.5 Plus 2026-04-20 medium Release: 2026-04-20	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Release: 2026-04-22

Metric	Qwen3.5 Plus 2026-04-20 Qwen3.5 Plus 2026-04-20 medium Release: 2026-04-20	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Release: 2026-04-22
Score	8.1	8.1
Rank	#32	#30
Reliability	9.7	N/A
Consistency	9.0	8.8
Tests Correct
Attempt pass rate	77.8%	75.9%
Flaky tests	2	3
Total Runs	54	54
Cost per result	2.065	1.674
Total Cost	$0.269	$0.201
Input Price	$0.400 / 1M	$1.000 / 1M
Output Price	$2.400 / 1M	$3.000 / 1M
Output Tokens	2,179	2,735
Reasoning Tokens	103,832	52,571
Response Time (avg)	32.81s	16.17s
Response Time (max)	92.41s	84.22s
Response Time (total)	590.65s	291.09s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		10.84s	215	7,748
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		2.95s	273	1,363

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	7.6	10.0	100.0%	0		85.72s	248	11,081
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		32.58s	543	7,485

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		92.41s	483	17,490
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		53.36s	348	11,870

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		38.32s	270	14,668
MiMo-V2.5-Pro	7.3	5.8	83.3%	1		18.81s	260	8,383

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	2.9	7.2	11.1%	1		53.10s	63	28,414
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		37.87s	275	17,023

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	4.9	9.6	0.0%	0		25.30s	125	4,792
MiMo-V2.5-Pro	5.1	3.3	33.3%	1		4.27s	150	549

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		20.25s	103	7,689
MiMo-V2.5-Pro	9.9	10.0	100.0%	0		2.77s	82	803

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	8.2	7.2	88.9%	1		17.58s	324	9,786
MiMo-V2.5-Pro	6.7	7.9	55.6%	1		5.16s	493	2,187

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		14.72s	348	2,164
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		16.87s	311	2,908

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3 Flash PreviewnonevsMiMo-V2.5-Promedium HY3 PreviewlowFree AvailablevsMiMo-V2.5-Promedium Gemini 3 Flash PreviewnonevsQwen3.5 Plus 2026-04-20medium Qwen3.5 Plus 2026-04-20mediumvsHY3 PreviewlowFree Available GPT-5.2 ChatnonevsQwen3.5 Plus 2026-04-20medium GPT-5.2 ChatnonevsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5-Promedium DeepSeek V4 FlashhighvsQwen3.5 Plus 2026-04-20medium DeepSeek V4 FlashhighvsMiMo-V2.5-Promedium