AI BENCHY Compare

Qwen: Qwen3.6 Flash vs StepFun: Step 3.5 Flash

Summary

Qwen3.6 Flash vs Step 3.5 Flash benchmark comparison: Step 3.5 Flash leads on average score with 6.6 vs 6.0. Qwen3.6 Flash has the lower benchmark cost at $0.015 vs $0.070. Qwen3.6 Flash is faster at 1.60s vs 72.53s, with pass rates of 33.3% vs 54.0%.

Recommended model: Qwen3.6 Flash - Its score stays close to the best score here (6.0 vs 6.6), while costing about 4.9x less than Step 3.5 Flash.

Last updated at: 2026-06-18

Metric	Qwen3.6 Flash Qwen3.6 Flash none Release: 2026-04-20	Step 3.5 Flash Step 3.5 Flash medium Release: 2026-02-01

Metric	Qwen3.6 Flash Qwen3.6 Flash none Release: 2026-04-20	Step 3.5 Flash Step 3.5 Flash medium Release: 2026-02-01
Score	6.0	6.6
Rank	#102	#80
Reliability	10.0	10.0
Consistency	10.0	8.9
Tests Correct
Attempt pass rate	33.3%	54.0%
Flaky tests	0	1
Total Runs	63	60
Cost per result	0.266	0.198
Total Cost	$0.015	$0.070
Input Price	$0.188 / 1M	$0.090 / 1M
Output Price	$1.125 / 1M	$0.300 / 1M
Total Input Tokens	50,810	34,431
Output Tokens	4,164	91,587
Reasoning Tokens	0	195,973
Response Time (avg)	1.60s	72.53s
Response Time (max)	4.60s	453.94s
Response Time (total)	33.59s	1015.47s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#102 Qwen3.6 Flash

none

Cost: $0.005
Time: 20.1s
Tokens: 4,211 tok

#80 Step 3.5 Flash

medium

Cost: $0.008
Time: 277.1s
Tokens: 23,695 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	3.1	10.0	0.0%	0		1.63s	696	1,554	0
Step 3.5 Flash	10.0	10.0	100.0%	0		40.57s	694	20,391	24,176

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	5.4	10.0	33.3%	0		1.79s	6,488	889	0
Step 3.5 Flash	2.4	5.2	0.0%	0		258.38s	2,211	13,207	22,429

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	3.0	10.0	0.0%	0		4.22s	24,675	315	0
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	13,638	1,176	12,984

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.13s	7,794	243	0
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	7,368	600	13,886

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	5.3	10.0	33.3%	0		1.11s	789	15	0
Step 3.5 Flash	5.3	7.2	44.4%	1		170.45s	673	45,350	90,436

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	10.0	10.0	100.0%	0		947ms	522	132	0
Step 3.5 Flash	5.5	10.0	0.0%	0		22.39s	509	240	3,506

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	6.3	10.0	50.0%	0		1.10s	711	66	0
Step 3.5 Flash	8.3	10.0	50.0%	0		4.78s	705	2,364	3,521

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	3.5	10.0	0.0%	0		1.21s	714	669	0
Step 3.5 Flash	5.3	10.0	33.3%	0		7.22s	711	5,630	10,861

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.49s	8,211	272	0
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	7,701	275	3,802

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Flash	3.0	10.0	0.0%	0		649ms	210	9	0
Step 3.5 Flash	3.0	10.0	0.0%	0		108.45s	221	2,354	10,372

Quick Compare

Switch Comparison Pair