AI BENCHY Compare

Inception: Mercury 2 vs StepFun: Step 3.5 Flash

Last updated at: 2026-04-11

Metric	Mercury 2 Mercury 2 none Release: 2026-02-24	Step 3.5 Flash Step 3.5 Flash none Release: 2026-02-01

Metric	Mercury 2 Mercury 2 none Release: 2026-02-24	Step 3.5 Flash Step 3.5 Flash none Release: 2026-02-01
Score	4.8	3.0
Rank	#85	#93
Consistency	9.0	10.0
Tests Correct
Attempt pass rate	27.8%	0.0%
Flaky tests	2	0
Total Runs	54	3
Cost per result	0.165	0.000
Total Cost	$0.007	$0.000
Input Price	$0.250 / 1M	$0.100 / 1M
Output Price	$0.750 / 1M	$0.300 / 1M
Output Tokens	1,625	0
Reasoning Tokens	0	0
Response Time (avg)	613ms	0ms
Response Time (max)	1.27s	0ms
Response Time (total)	11.04s	0ms

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	3.0	10.0	0.0%	0		483ms	286	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	3.6	8.9	0.0%	0		969ms	310	0
Step 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	3.0	10.0	0.0%	0		606ms	131	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	7.3	5.9	83.3%	1		667ms	180	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	5.3	7.2	44.4%	1		534ms	46	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	4.8	10.0	0.0%	0		628ms	159	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	6.5	10.0	50.0%	0		551ms	82	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	3.1	10.0	0.0%	0		533ms	234	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
Step 3.5 Flash	-	-	-	-	-	-	-	-

Quick Compare

Switch Comparison Pair

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Mercury 2nonevsQwen3.5-9Bmedium Mercury 2nonevsMiniMax M2.7medium Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.5mediumFree Available Mercury 2nonevsgpt-oss-120bmediumFree Available Qwen3.5-9BmediumvsStep 3.5 Flashnone Mercury 2nonevsGPT-5 Nanomedium Step 3.5 FlashnonevsGLM 4.7 Flashmedium Qwen3 Coder NextmediumvsStep 3.5 Flashnone Mercury 2nonevsGrok 4.1 Fastmedium