Qwen3.6 Max Preview (medium) vs Step 3.7 Flash (low)

Recommended model Step 3.7 Flash (low)

It offers the best overall trade-off: a competitive score (7.3), lower cost than Qwen3.6 Max Preview (medium), and balanced response time.

Detailed comparison

Metric	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Release: 2026-04-20	Step 3.7 Flash Step 3.7 Flash low Release: 2026-05-29

Metric	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Release: 2026-04-20	Step 3.7 Flash Step 3.7 Flash low Release: 2026-05-29
Score	8.4	7.3
Rank	#25	#75
Reliability	9.9	10.0
Consistency	8.9	8.1
Tests Correct
Attempt pass rate	80.3%	68.2%
Flaky tests	3	5
Total Runs	66	66
Cost per result	8.173	3.782
Total Cost	$1.143	$0.454
Input Price	$1.040 / 1M	$0.200 / 1M
Output Price	$6.240 / 1M	$1.150 / 1M
Total Input Tokens	79,240	103,833
Output Tokens	5,098	376,581
Reasoning Tokens	164,842	0
Response Time (avg)	67.53s	20.68s
Response Time (max)	238.07s	124.75s
Response Time (total)	1485.64s	455.01s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

medium

low

Invalid SVG

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		22.13s	672	228	10,075
Step 3.7 Flash	8.7	7.9	91.7%	1		4.02s	756	10,896	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	8.8	7.8	88.9%	1		146.48s	7,895	427	52,957
Step 3.7 Flash	8.2	7.2	88.9%	1		9.46s	7,437	18,685	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	7.3	5.8	83.3%	1		177.48s	51,812	3,215	35,050
Step 3.7 Flash	7.3	5.8	83.3%	1		66.18s	77,415	93,682	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		41.15s	7,782	270	10,106
Step 3.7 Flash	7.3	5.8	83.3%	1		2.29s	7,398	2,667	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	2.9	7.2	11.1%	1		95.91s	771	60	30,371
Step 3.7 Flash	5.3	7.2	44.4%	1		43.31s	828	104,487	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		32.24s	516	129	3,510
Step 3.7 Flash	3.4	9.3	0.0%	0		7.00s	525	4,604	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.31s	699	103	5,848
Step 3.7 Flash	9.8	10.0	100.0%	0		1.58s	735	1,857	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.32s	696	329	7,693
Step 3.7 Flash	5.5	9.9	33.3%	0		1.84s	756	3,564	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		18.32s	8,193	309	1,571
Step 3.7 Flash	10.0	10.0	100.0%	0		3.25s	7,746	1,360	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		60.56s	204	28	7,661
Step 3.7 Flash	3.0	10.0	0.0%	0		124.75s	237	134,779	0

Switch Comparison Pair