AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs MiniMax: MiniMax M3

Last updated at: 2026-06-01

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	MiniMax M3 MiniMax M3 medium Release: 2026-06-01

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	MiniMax M3 MiniMax M3 medium Release: 2026-06-01
Score	7.3	7.3
Rank	#66	#65
Reliability	10.0	9.6
Consistency	9.2	8.4
Tests Correct
Attempt pass rate	65.0%	68.3%
Flaky tests	2	6
Total Runs	60	60
Cost per result	4.324	1.083
Total Cost	$0.519	$0.120
Input Price	$5.000 / 1M	$0.300 / 1M
Output Price	$25.000 / 1M	$1.200 / 1M
Output Tokens	8,098	46,884
Reasoning Tokens	0	85,935
Response Time (avg)	3.51s	68.44s
Response Time (max)	17.73s	431.03s
Response Time (total)	70.19s	1300.32s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
MiniMax M3	5.5	3.7	66.7%	3		14.95s	874	3,414

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
MiniMax M3	7.5	10.0	66.7%	1		185.58s	4,071	26,059

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
MiniMax M3	10.0	10.0	100.0%	0		65.30s	1,306	6,253

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
MiniMax M3	10.0	10.0	100.0%	0		14.92s	514	3,164

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
MiniMax M3	6.0	10.0	44.4%	1		233.13s	16,254	19,070

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
MiniMax M3	5.1	3.4	33.3%	1		33.25s	2,487	2,523

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
MiniMax M3	9.8	10.0	100.0%	0		6.14s	103	920

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
MiniMax M3	7.9	9.9	66.7%	0		49.91s	11,946	13,761

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
MiniMax M3	10.0	10.0	100.0%	0		11.91s	281	555

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
MiniMax M3	3.0	10.0	0.0%	0		100.80s	9,048	10,216

Quick Compare

Switch Comparison Pair

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Ring-2.6-1TnonevsMiniMax M3medium MiniMax M3mediumvsStep 3.7 Flashlow Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsKimi K2.6mediumFree Available MiniMax M3mediumvsGPT-5.3 Chatnone Claude Opus 4.8nonevsStep 3.7 Flashlow