Qwen3.6 35B A3B (medium) vs Step 3.7 Flash (high)

Recommended model Qwen3.6 35B A3B (medium)

Its score stays close to the best score here (6.7 vs 6.9), while costing about 1.6x less than Step 3.7 Flash (high).

Detailed comparison

Metric	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Release: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high Release: 2026-05-29

Metric	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Release: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high Release: 2026-05-29
Score	6.7	6.9
Rank	#98	#94
Reliability	10.0	10.0
Consistency	9.6	8.0
Tests Correct
Attempt pass rate	60.6%	63.6%
Flaky tests	1	5
Total Runs	66	66
Cost per result	5.712	10.973
Total Cost	$0.746	$1.207
Input Price	$0.140 / 1M	$0.200 / 1M
Output Price	$1.000 / 1M	$1.150 / 1M
Total Input Tokens	85,139	98,691
Output Tokens	61,819	1,032,395
Reasoning Tokens	678,766	0
Response Time (avg)	58.06s	64.68s
Response Time (max)	817.57s	364.99s
Response Time (total)	1161.18s	1423.01s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

medium

Invalid SVG

high

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	672	1,154	12,385
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	7.7	10.0	66.7%	0		50.55s	5,051	7,929	37,223
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		817.57s	68,754	42,187	548,547
Step 3.7 Flash	8.7	6.9	83.3%	1		41.23s	73,938	49,842	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	7,776	2,591	9,968
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	771	6,193	39,116
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	516	129	4,569
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	699	219	7,404
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	8.0	10.0	66.7%	0		5.95s	696	655	9,228
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	204	762	10,326
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Switch Comparison Pair