AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs Qwen: Qwen3.7 Plus

Last updated at: 2026-06-03

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Release: 2026-05-08	Qwen3.7 Plus Qwen3.7 Plus none Release: 2026-06-03

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Release: 2026-05-08	Qwen3.7 Plus Qwen3.7 Plus none Release: 2026-06-03
Score	6.7	6.6
Rank	#80	#82
Reliability	10.0	10.0
Consistency	8.8	10.0
Tests Correct
Attempt pass rate	56.7%	50.0%
Flaky tests	3	0
Total Runs	60	60
Cost per result	0.123	0.264
Total Cost	$0.013	$0.027
Input Price	$0.250 / 1M	$0.400 / 1M
Output Price	$1.500 / 1M	$1.600 / 1M
Total Input Tokens	33,968	39,669
Output Tokens	2,481	6,572
Reasoning Tokens	0	0
Response Time (avg)	1.37s	2.95s
Response Time (max)	4.49s	29.38s
Response Time (total)	27.32s	58.96s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	8.3	10.0	75.0%	0		1.10s	500	639	0
Qwen3.7 Plus	6.5	10.0	50.0%	0		1.38s	696	349	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	6.8	10.0	50.0%	0		951ms	5,121	660	0
Qwen3.7 Plus	6.8	10.0	50.0%	0		2.77s	5,070	633	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.53s	12,870	357	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		29.38s	14,952	4,505	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.04s	7,552	279	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		1.43s	7,794	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		1.02s	641	15	0
Qwen3.7 Plus	3.0	10.0	0.0%	0		868ms	789	18	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		791ms	490	63	0
Qwen3.7 Plus	5.3	10.0	0.0%	0		1.33s	522	78	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		932ms	615	72	0
Qwen3.7 Plus	6.3	10.0	50.0%	0		929ms	711	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	6.0	4.6	66.7%	2		2.15s	564	153	0
Qwen3.7 Plus	7.7	10.0	66.7%	0		1.71s	714	443	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.51s	5,457	234	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		3.54s	8,211	222	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		724ms	158	9	0
Qwen3.7 Plus	3.0	10.0	0.0%	0		1.21s	210	9	0

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Kimi K2.5mediumvsQwen3.7 Plusnone Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Mercury 2mediumvsQwen3.7 Plusnone Gemini 3.1 Flash LiteminimalvsGPT-5.5none DeepSeek V3.2mediumvsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LiteminimalvsMercury 2medium DeepSeek V3.2mediumvsQwen3.7 Plusnone Gemini 3.1 Flash LiteminimalvsMimo V2 Omnimedium Gemini 3.1 Flash LiteminimalvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash LiteminimalvsRing-2.6-1Tnone Qwen3.7 PlusnonevsMimo V2 Omnimedium