AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Mimo V2 Omni

Last updated at: 2026-06-01

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	Mimo V2 Omni Mimo V2 Omni medium Release: 2026-03-18

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	Mimo V2 Omni Mimo V2 Omni medium Release: 2026-03-18
Score	7.3	6.9
Rank	#66	#80
Reliability	10.0	10.0
Consistency	9.2	8.7
Tests Correct
Attempt pass rate	65.0%	58.3%
Flaky tests	2	3
Total Runs	60	52
Cost per result	4.324	7.334
Total Cost	$0.519	$0.683
Input Price	$5.000 / 1M	$1.722 / 1M
Output Price	$25.000 / 1M	$1.722 / 1M
Output Tokens	8,098	1,952
Reasoning Tokens	0	357,306
Response Time (avg)	3.51s	41.16s
Response Time (max)	17.73s	299.23s
Response Time (total)	70.19s	823.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Mimo V2 Omni	10.0	10.0	100.0%	0		2.75s	269	1,701

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Mimo V2 Omni	3.4	4.8	16.7%	1		183.89s	292	174,314

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Mimo V2 Omni	10.0	10.0	100.0%	0		25.87s	380	8,673

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Mimo V2 Omni	10.0	10.0	100.0%	0		3.04s	155	591

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Mimo V2 Omni	3.0	10.0	0.0%	0		47.89s	155	68,398

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Mimo V2 Omni	5.4	2.5	66.7%	1		3.61s	136	492

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Mimo V2 Omni	8.3	10.0	50.0%	0		4.99s	49	515

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Mimo V2 Omni	5.9	7.2	55.6%	1		2.38s	210	860

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Mimo V2 Omni	10.0	10.0	100.0%	0		13.98s	303	3,461

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Mimo V2 Omni	3.0	10.0	0.0%	0		234.19s	3	98,301

Quick Compare

Switch Comparison Pair

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsMiniMax M3medium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsMimo V2 Omnimedium Claude Opus 4.8nonevsKimi K2.6mediumFree Available Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsGPT-5 Minimedium