AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Qwen: Qwen3.5-35B-A3B

Last updated at: 2026-04-30

Metric	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Release: 2026-03-03	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24

Metric	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Release: 2026-03-03	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24
Score	8.2	6.1
Rank	#22	#81
Reliability	N/A	N/A
Consistency	10.0	8.7
Tests Correct
Attempt pass rate	72.2%	50.0%
Flaky tests	0	3
Total Runs	54	54
Cost per result	0.419	0.215
Total Cost	$0.055	$0.016
Input Price	$0.250 / 1M	$0.163 / 1M
Output Price	$1.500 / 1M	$1.300 / 1M
Output Tokens	2,168	4,300
Reasoning Tokens	29,030	0
Response Time (avg)	3.74s	3.82s
Response Time (max)	14.93s	47.43s
Response Time (total)	67.31s	68.74s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	570	4,305
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	574	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		4.34s	431	2,684
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.67s	539	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	327	7,347
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	1,833	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	279	2,952
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	18	5,325
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	15	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	96	1,488
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	114	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	72	2,121
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		3.58s	141	1,896
Qwen3.5-35B-A3B	3.9	7.4	22.2%	1		1.34s	655	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	234	912
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0

Quick Compare

Switch Comparison Pair

Laguna Xs.2mediumFree AvailablevsQwen3.5-35B-A3Bnone Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewlowFree Available GPT-5 NanomediumvsQwen3.5-35B-A3Bnone Laguna M.1mediumFree AvailablevsQwen3.5-35B-A3Bnone gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewhighFree Available Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone DeepSeek V4 FlashhighvsGemini 3.1 Flash Lite Previewmedium Mercury 2mediumvsQwen3.5-35B-A3Bnone MiniMax M2.5mediumFree AvailablevsQwen3.5-35B-A3Bnone Mistral Small 4mediumvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone