AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Qwen: Qwen3.5-122B-A10B

Last updated at: 2026-06-01

Metric	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Release: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Release: 2026-02-24

Metric	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Release: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Release: 2026-02-24
Score	7.6	7.7
Rank	#47	#41
Reliability	10.0	10.0
Consistency	10.0	8.8
Tests Correct
Attempt pass rate	65.0%	71.7%
Flaky tests	0	3
Total Runs	60	60
Cost per result	0.186	5.031
Total Cost	$0.025	$0.509
Input Price	$0.250 / 1M	$0.260 / 1M
Output Price	$1.500 / 1M	$2.080 / 1M
Output Tokens	2,280	26,166
Reasoning Tokens	8,829	213,524
Response Time (avg)	2.85s	39.40s
Response Time (max)	11.91s	168.16s
Response Time (total)	57.08s	788.00s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	269	16,835

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.56s	654	723
Qwen3.5-122B-A10B	4.1	5.8	33.3%	1		119.57s	8,036	45,074

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	483	11,337

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	270	16,558

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	15,537	64,889

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	66	7,592

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	77	7,372

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.69s	243	1,248
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	284	27,575

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	322	1,226

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.35s	9	420
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	822	15,066

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium DeepSeek V4 FlashhighvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsMimo V2 PROmedium Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium DeepSeek V4 FlashhighvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium