AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Xiaomi: MiMo-V2.5

Last updated at: 2026-05-19

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	MiMo-V2.5 MiMo-V2.5 medium Release: 2026-04-22

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	MiMo-V2.5 MiMo-V2.5 medium Release: 2026-04-22
Score	7.8	7.8
Rank	#40	#37
Reliability	10.0	10.0
Consistency	9.6	8.6
Tests Correct
Attempt pass rate	70.2%	75.9%
Flaky tests	1	3
Total Runs	57	54
Cost per result	9.515	2.101
Total Cost	$1.237	$0.253
Input Price	$3.000 / 1M	$0.400 / 1M
Output Price	$15.000 / 1M	$2.000 / 1M
Output Tokens	45,505	2,821
Reasoning Tokens	28,370	116,207
Response Time (avg)	14.25s	14.40s
Response Time (max)	46.35s	86.93s
Response Time (total)	156.71s	259.20s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	281	1,739

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
MiMo-V2.5	10.0	10.0	100.0%	0		31.48s	488	14,813

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	363	7,609

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	306	5,714

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	507	49,478

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	121	418

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	88	801

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
MiMo-V2.5	8.2	7.2	88.9%	1		20.60s	364	33,211

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	303	2,424

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
MiMo-V2.5	-	-	-	-	-	-	-	-

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium Gemini 3 Flash PreviewnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Litelow GPT-5.2 ChatnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash LitelowvsMiMo-V2.5medium Claude Sonnet 4.6mediumvsDeepSeek V4 FlashhighFree Available