AI BENCHY Compare

OpenAI: gpt-oss-120b vs Xiaomi: MiMo-V2.5

Last updated at: 2026-04-22

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	MiMo-V2.5 MiMo-V2.5 none Release: 2026-04-22

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	MiMo-V2.5 MiMo-V2.5 none Release: 2026-04-22
Score	5.2	5.1
Rank	#88	#92
Consistency	7.9	10.0
Tests Correct
Attempt pass rate	38.9%	27.8%
Flaky tests	5	0
Total Runs	54	54
Cost per result	0.221	0.368
Total Cost	$0.009	$0.019
Input Price	$0.000 / 1M	$0.400 / 1M
Output Price	$0.000 / 1M	$2.000 / 1M
Output Tokens	44,652	2,177
Reasoning Tokens	0	0
Response Time (avg)	11.96s	1.05s
Response Time (max)	68.97s	2.43s
Response Time (total)	179.34s	18.94s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.6	8.0	58.3%	1		6.03s	4,867	0
MiMo-V2.5	4.8	10.0	25.0%	0		842ms	232	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0
MiMo-V2.5	10.0	10.0	100.0%	0		1.95s	660	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
MiMo-V2.5	3.0	10.0	0.0%	0		2.36s	330	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0
MiMo-V2.5	6.5	10.0	50.0%	0		1.01s	366	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0
MiMo-V2.5	3.0	10.0	0.0%	0		756ms	27	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.6	10.0	0.0%	0		2.83s	586	0
MiMo-V2.5	4.6	10.0	0.0%	0		841ms	97	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	8.4	6.9	83.3%	1		5.10s	1,982	0
MiMo-V2.5	6.5	10.0	50.0%	0		751ms	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.5	4.8	44.5%	2		6.86s	3,904	0
MiMo-V2.5	3.4	10.0	0.0%	0		731ms	162	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
MiMo-V2.5	10.0	10.0	100.0%	0		2.43s	231	0

Quick Compare

Switch Comparison Pair

gpt-oss-120bnoneFree AvailablevsElephant Alphamedium MiniMax M2.7mediumvsgpt-oss-120bnoneFree Available Elephant AlphamediumvsMiMo-V2.5none MiniMax M2.7mediumvsMiMo-V2.5none Qwen3 Coder NextmediumvsMiMo-V2.5none Mistral Small 4mediumvsgpt-oss-120bnoneFree Available gpt-oss-120bnoneFree AvailablevsQwen3 Coder Nextmedium MiniMax M2.5mediumFree Availablevsgpt-oss-120bnoneFree Available MiMo-V2.5nonevsGLM 4.7 Flashmedium Mistral Small 4mediumvsMiMo-V2.5none MiniMax M2.5mediumFree AvailablevsMiMo-V2.5none gpt-oss-120bnoneFree AvailablevsGLM 4.7 Flashmedium