Gemini 3.5 Flash vs Step 3.7 Flash (medium)

Rank: #89
Total Output Tokens: 117,518
Response Time (avg): 9.93s
Total Cost: $1.079

Rank: #36
Total Output Tokens: 427,572
Response Time (avg): 26.37s
Total Cost: $0.515

Recommended model Step 3.7 Flash (medium)

It has the best score here (8.0), while costing about 2.1x less than Gemini 3.5 Flash.

Detailed comparison

Metric	Gemini 3.5 Flash Gemini 3.5 Flash none Release: 2026-05-19	Step 3.7 Flash Step 3.7 Flash medium Release: 2026-05-29

Metric	Gemini 3.5 Flash Gemini 3.5 Flash none Release: 2026-05-19	Step 3.7 Flash Step 3.7 Flash medium Release: 2026-05-29
Score	7.0	8.0
Rank	#89	#36
Reliability	10.0	9.9
Consistency	8.9	8.9
Tests Correct
Attempt pass rate	74.2%	72.7%
Flaky tests	3	3
Total Runs	66	64
Cost per result	7.190	3.676
Total Cost	$1.079	$0.515
Input Price	$1.500 / 1M	$0.200 / 1M
Output Price	$9.000 / 1M	$1.150 / 1M
Total Input Tokens	13,843	114,062
Output Tokens	117,518	427,572
Reasoning Tokens	0	0
Response Time (avg)	9.93s	26.37s
Response Time (max)	64.36s	152.83s
Response Time (total)	178.68s	580.25s

Model generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#89 Gemini 3.5 Flash

none

Cost: $0.225
Time: 125.5s
Tokens: 25,004 tok

#36 Step 3.7 Flash

medium

Cost: $0.006
Time: 46.2s
Tokens: 4,466 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.53s	492	5,101	0
Step 3.7 Flash	8.7	7.9	91.7%	1		9.65s	756	32,185	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	8.8	7.8	88.9%	1		34.69s	8,122	75,927	0
Step 3.7 Flash	8.8	7.8	88.9%	1		27.42s	7,437	44,797	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
Step 3.7 Flash	7.3	5.8	83.3%	1		80.94s	87,764	114,720	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	6.5	10.0	50.0%	0		8.10s	2,781	5,895	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.75s	7,398	3,020	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	7.6	7.2	77.8%	1		10.64s	633	17,910	0
Step 3.7 Flash	7.7	10.0	66.7%	0		48.27s	708	70,347	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.46s	486	1,620	0
Step 3.7 Flash	4.0	10.0	0.0%	0		6.85s	525	3,987	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	9.8	10.0	100.0%	0		3.38s	615	3,928	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.83s	735	2,166	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.13s	558	4,640	0
Step 3.7 Flash	5.7	9.9	33.3%	0		6.19s	756	15,071	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
Step 3.7 Flash	10.0	10.0	100.0%	0		4.16s	7,746	2,115	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	2.8	1.6	33.3%	1		4.87s	156	2,497	0
Step 3.7 Flash	3.0	10.0	0.0%	0		113.98s	237	139,164	0

Quick Compare

Switch Comparison Pair

GPT-5.2 ChatnonevsStep 3.7 Flashmedium Step 3.7 FlashmediumvsInklinghigh Gemini 3.5 FlashnonevsMercury 2medium Gemini 3.5 Flash-LitehighvsStep 3.7 Flashmedium Gemini 3.5 FlashnonevsKimi K2.5medium Step 3.7 FlashmediumvsGLM 5.2high Seed-2.0-MinimediumvsGemini 3.5 Flashnone DeepSeek V3.2mediumvsGemini 3.5 Flashnone Muse Spark 1.1highvsStep 3.7 Flashmedium Gemini 3.5 FlashnonevsQwen3.7 Flashmedium Gemini 3.5 FlashnonevsKAT-Coder-Pro V2.5medium Kimi K3maxvsStep 3.7 Flashmedium