Compare Charts

Language:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs StepFun: Step 3.5 Flash

Compare:

Last updated at: 2026-03-05

Metric	OpenAI: GPT-5.4 none Release: 2026-03-05	StepFun: Step 3.5 Flash medium Release: 2026-02-01 Free Available
Rank	#44	#16
Avg Score	4.6	7.5
Tests Correct
Consistency	8.9	9.0
Cost per result	1.496	0.000
Total Cost	$0.090	$0.000
Attempt pass rate	44.4%	73.3%
Flaky tests	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Output Tokens	1,635	69,238
Reasoning Tokens	0	152,563
Response Time (avg)	1.46s	31.60s
Response Time (max)	2.89s	170.45s
Response Time (total)	21.86s	284.43s

Top Models by Score

Response Time (avg)

Score vs Total Cost

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Quick Compare

Switch Comparison Pair

GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumFree Available MiniMax M2.5mediumvsGPT-5.4none GPT-5.2 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumFree Available Claude Sonnet 4.6nonevsStep 3.5 FlashmediumFree Available Mercury 2mediumvsGPT-5.4none Qwen3.5 Plus 2026-02-15nonevsStep 3.5 FlashmediumFree Available GPT-5.4nonevsQwen3.5-35B-A3Bmedium