AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Xiaomi: MiMo-V2-Omni

Last updated at: 2026-03-21

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	MiMo-V2-Omni MiMo-V2-Omni medium Release: 2026-03-18

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	MiMo-V2-Omni MiMo-V2-Omni medium Release: 2026-03-18
Score	7.3	7.9
Rank	#34	#22
Consistency	9.6	10.0
Tests Correct
Attempt pass rate	62.8%	64.7%
Flaky tests	1	0
Total Runs	51	17
Cost per result	2.512	0.763
Total Cost	$0.252	$0.084
Input Price	$3.000 / 1M	$0.400 / 1M
Output Price	$15.000 / 1M	$2.000 / 1M
Output Tokens	6,910	663
Reasoning Tokens	0	39,001
Response Time (avg)	5.12s	13.71s
Response Time (max)	23.84s	158.78s
Response Time (total)	51.16s	233.06s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	1,214	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		2.11s	112	402

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	3,766	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		19.29s	131	2,807

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	252	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		2.29s	87	323

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	413	0
MiMo-V2-Omni	3.0	10.0	0.0%	0		55.12s	13	33,279

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	192	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		2.86s	58	202

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	90	0
MiMo-V2-Omni	8.3	10.0	50.0%	0		4.92s	35	201

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.92s	536	0
MiMo-V2-Omni	6.5	10.0	33.3%	0		3.88s	126	481

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		11.07s	101	1,306

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsGPT-5.2medium Claude Sonnet 4.6nonevsKimi K2.5medium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3 Flash PreviewnonevsMiMo-V2-Omnimedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Omnimedium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Omnimedium GPT-5.2 ChatnonevsMiMo-V2-Omnimedium Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Claude Sonnet 4.6nonevsHunter Alphamedium Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium