Compare Charts

Language:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs StepFun: Step 3.5 Flash

Compare:

Last updated at: 2026-03-05

Metric	Inception: Mercury 2 none Release: 2026-02-24	StepFun: Step 3.5 Flash medium Release: 2026-02-01 Free Available
Rank	#50	#13
Avg Score	31	74
Consistency	89	94
Cost per result	0.196	0.000
Total Cost	$0.006	$0.000
Tests Correct
Attempt pass rate	26.7%	68.9%
Flaky tests	2	1
Output Tokens	1,144	69,238
Reasoning Tokens	0	152,563

Top Models by Score

Score vs Total Cost

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Inception: Mercury 2	100	100	0.0%	0		274	0
StepFun: Step 3.5 Flash	100	100	100.0%	0		13,924	17,208

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Inception: Mercury 2	100	100	0.0%	0		131	0
StepFun: Step 3.5 Flash	100	100	100.0%	0		1,176	12,984

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Inception: Mercury 2	55	59	83.3%	1		180	0
StepFun: Step 3.5 Flash	100	100	100.0%	0		600	13,886

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Inception: Mercury 2	40	72	44.4%	1		46	0
StepFun: Step 3.5 Flash	40	72	44.4%	1		45,350	90,436

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Inception: Mercury 2	35	100	0.0%	0		82	0
StepFun: Step 3.5 Flash	85	100	50.0%	0		2,284	3,412

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Inception: Mercury 2	100	100	0.0%	0		234	0
StepFun: Step 3.5 Flash	40	100	33.3%	0		5,629	10,835

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Inception: Mercury 2	100	100	100.0%	0		197	0
StepFun: Step 3.5 Flash	100	100	100.0%	0		275	3,802

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumFree Available Mercury 2nonevsQwen3 Coder Nextmedium GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumFree Available GPT-5.2 ChatnonevsStep 3.5 FlashmediumFree Available Mercury 2nonevsGLM 4.7 Flashmedium Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumFree Available Claude Sonnet 4.6nonevsStep 3.5 FlashmediumFree Available Qwen3.5 Plus 2026-02-15nonevsStep 3.5 FlashmediumFree Available Mercury 2nonevsMiniMax M2.5medium