Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

Qwen: Qwen3.5-Flash vs StepFun: Step 3.5 Flash

Compare:

Last updated at: 2026-03-06

Metric	Qwen: Qwen3.5-Flash none Release: 2026-02-24	StepFun: Step 3.5 Flash medium Release: 2026-02-01 Free Available
Rank	#37	#13
Avg Score	5.2	7.4
Consistency	9.6	9.1
Cost per result	0.077	0.000
Total Cost	$0.006	$0.000
Tests Correct
Attempt pass rate	45.8%	68.8%
Flaky tests	1	2
Total Runs	48	48
Output Tokens	3,774	71,452
Reasoning Tokens	0	155,147
Response Time (avg)	3.54s	29.10s
Response Time (max)	13.73s	170.45s
Response Time (total)	56.70s	290.96s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	2.3	7.8	11.1%	1		1.62s	687	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	10.0	10.0	0.0%	0		6.22s	1,794	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	9.9	10.0	100.0%	0		1.57s	243	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	7.0	10.0	66.7%	0		905ms	15	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	100	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	5.0	10.0	50.0%	0		8.81s	63	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	1.3	10.0	0.0%	0		5.90s	608	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Quick Compare

Switch Comparison Pair

GPT-5.2 ChatnonevsStep 3.5 FlashmediumFree Available Mercury 2mediumvsQwen3.5-Flashnone gpt-oss-120bmediumFree AvailablevsQwen3.5-Flashnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumFree Available GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumFree Available GPT-5 NanomediumvsQwen3.5-Flashnone Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumFree Available MiniMax M2.5mediumvsQwen3.5-Flashnone Claude Sonnet 4.6nonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumFree Available