Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs StepFun: Step 3.5 Flash

Compare:

Last updated at: 2026-03-06

Metric	Google: Gemini 3.1 Flash Lite Preview high Release: 2026-03-03	StepFun: Step 3.5 Flash medium Release: 2026-02-01 Free Available
Rank	#8	#13
Avg Score	8.2	7.4
Consistency	9.6	9.1
Cost per result	19.243	0.000
Total Cost	$2.310	$0.000
Tests Correct
Attempt pass rate	77.1%	68.8%
Flaky tests	1	2
Total Runs	48	48
Output Tokens	1,283	71,452
Reasoning Tokens	1,533,310	155,147
Response Time (avg)	68.83s	29.10s
Response Time (max)	280.52s	170.45s
Response Time (total)	1101.32s	290.96s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		43.87s	144	193,077
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		280.52s	335	380,440
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		7.16s	279	6,186
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		127.58s	18	566,202
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		5.25s	117	3,915
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	9.0	6.9	66.7%	1		70.07s	69	190,053
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		46.33s	87	190,953
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		7.73s	234	2,484
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium GPT-5.2 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumFree Available GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewhighvsQwen3.5 Plus 2026-02-15medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Claude Sonnet 4.6nonevsStep 3.5 FlashmediumFree Available