AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Xiaomi: MiMo-V2-Omni

Last updated at: 2026-05-22

Metric	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17	MiMo-V2-Omni MiMo-V2-Omni medium Release: 2026-03-18

Metric	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17	MiMo-V2-Omni MiMo-V2-Omni medium Release: 2026-03-18
Score	7.1	6.9
Rank	#65	#72
Reliability	10.0	10.0
Consistency	7.6	8.7
Tests Correct
Attempt pass rate	68.3%	58.3%
Flaky tests	6	3
Total Runs	60	52
Cost per result	4.867	7.334
Total Cost	$0.487	$0.734
Input Price	$0.750 / 1M	$0.400 / 1M
Output Price	$4.500 / 1M	$2.000 / 1M
Output Tokens	2,186	1,952
Reasoning Tokens	100,706	357,306
Response Time (avg)	22.14s	41.16s
Response Time (max)	138.75s	299.23s
Response Time (total)	442.74s	823.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876
MiMo-V2-Omni	10.0	10.0	100.0%	0		2.75s	269	1,701

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	7.5	6.0	83.3%	1		73.25s	446	32,513
MiMo-V2-Omni	3.4	4.8	16.7%	1		183.89s	292	174,314

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317
MiMo-V2-Omni	10.0	10.0	100.0%	0		25.87s	380	8,673

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650
MiMo-V2-Omni	10.0	10.0	100.0%	0		3.04s	155	591

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286
MiMo-V2-Omni	3.0	10.0	0.0%	0		47.89s	155	68,398

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510
MiMo-V2-Omni	5.4	2.5	66.7%	1		3.61s	136	492

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	7.4	6.7	66.7%	1		2.50s	129	1,337
MiMo-V2-Omni	8.3	10.0	50.0%	0		4.99s	49	515

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	7.8	10.0	66.7%	0		4.33s	271	2,449
MiMo-V2-Omni	5.9	7.2	55.6%	1		2.38s	210	860

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594
MiMo-V2-Omni	10.0	10.0	100.0%	0		13.98s	303	3,461

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.0	10.0	0.0%	0		30.10s	32	10,174
MiMo-V2-Omni	3.0	10.0	0.0%	0		234.19s	3	98,301

Quick Compare

Switch Comparison Pair

GPT-5.4 MinimediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Claude Sonnet 4.6nonevsMiMo-V2-Omnimedium Ring-2.6-1TnonevsGPT-5.4 Minimedium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Gemma 4 31BnoneFree AvailablevsMiMo-V2-Omnimedium Gemini 3.1 Flash LiteminimalvsMiMo-V2-Omnimedium DeepSeek V4 FlashhighFree AvailablevsGPT-5.4 Minimedium DeepSeek V4 ProhighvsMiMo-V2-Omnimedium Ring-2.6-1TnonevsMiMo-V2-Omnimedium Gemini 3.1 Flash LitelowvsGPT-5.4 Minimedium Grok Build 0.1nonevsMiMo-V2-Omnimedium