AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Xiaomi: MiMo-V2.5

Last updated at: 2026-05-22

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	MiMo-V2.5 MiMo-V2.5 medium Release: 2026-04-22

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	MiMo-V2.5 MiMo-V2.5 medium Release: 2026-04-22
Score	7.2	7.4
Rank	#63	#53
Reliability	10.0	10.0
Consistency	9.1	8.4
Tests Correct
Attempt pass rate	63.3%	70.0%
Flaky tests	2	4
Total Runs	60	60
Cost per result	15.798	2.877
Total Cost	$1.896	$0.346
Input Price	$5.000 / 1M	$0.400 / 1M
Output Price	$25.000 / 1M	$2.000 / 1M
Output Tokens	42,253	2,891
Reasoning Tokens	23,561	161,845
Response Time (avg)	25.44s	20.40s
Response Time (max)	83.40s	97.49s
Response Time (total)	330.70s	407.98s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	281	1,739

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	7.2	9.8	50.0%	0		29.37s	7,865	3,675
MiMo-V2.5	6.9	6.2	66.7%	1		64.48s	536	44,967

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	363	7,609

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	306	5,714

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	507	49,478

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	121	418

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	88	801

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
MiMo-V2.5	8.2	7.2	88.9%	1		20.60s	364	33,211

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	303	2,424

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	8,045	2,452
MiMo-V2.5	3.0	10.0	0.0%	0		51.29s	22	15,484

Quick Compare

Switch Comparison Pair

GPT-5.3 ChatnonevsMiMo-V2.5medium DeepSeek V4 FlashhighFree AvailablevsMiMo-V2.5medium Gemini 3.1 Flash LitelowvsMiMo-V2.5medium Claude Opus 4.6mediumvsRing-2.6-1Tnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Ring-2.6-1TnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsDeepSeek V4 FlashhighFree Available Claude Opus 4.6mediumvsGPT-5.3 Chatnone GPT-5.2 ChatnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsGemini 3.1 Flash Litelow Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium