AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs Qwen: Qwen3.6 35B A3B

Last updated at: 2026-05-22

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Release: 2026-05-08	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Release: 2026-04-20

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Release: 2026-05-08	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Release: 2026-04-20
Score	7.5	7.8
Rank	#48	#30
Reliability	9.8	9.4
Consistency	8.1	9.1
Tests Correct
Attempt pass rate	74.1%	70.4%
Flaky tests	4	2
Total Runs	54	60
Cost per result	18.579	1.050
Total Cost	$2.044	$0.126
Input Price	$0.250 / 1M	$0.150 / 1M
Output Price	$1.500 / 1M	$1.000 / 1M
Output Tokens	1,984	18,325
Reasoning Tokens	1,355,583	115,750
Response Time (avg)	61.96s	17.26s
Response Time (max)	149.23s	86.11s
Response Time (total)	1115.31s	310.77s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	9.4	10.0	100.0%	0		37.16s	100	130,598
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	1,154	12,385

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		137.63s	666	188,733
Qwen3.6 35B A3B	6.6	10.0	50.0%	0		59.35s	6,601	22,535

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		149.23s	327	198,243
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.49s	279	7,351
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	2,591	9,968

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	3.6	7.2	22.2%	1		139.90s	18	566,210
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	6,193	39,116

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	5.0	2.1	66.7%	1		45.69s	95	64,644
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	129	4,569

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	7.3	5.8	83.3%	1		23.26s	52	3,549
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	219	7,404

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	5.7	6.8	44.4%	1		50.83s	213	193,654
Qwen3.6 35B A3B	7.9	7.5	77.8%	1		5.98s	676	9,447

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		6.44s	234	2,601
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	-	-	-	-	-	-	-	-
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	762	10,326

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.5 FlashminimalvsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 35B A3Bmedium GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 35B A3Bmedium GPT-5.3 ChatnonevsQwen3.6 35B A3Bmedium DeepSeek V4 FlashhighFree AvailablevsQwen3.6 35B A3Bmedium Ring-2.6-1TnonevsQwen3.6 35B A3Bmedium Claude Sonnet 4.6nonevsQwen3.6 35B A3Bmedium Gemini 3 Flash PreviewlowvsQwen3.6 35B A3Bmedium Gemma 4 31BnoneFree AvailablevsQwen3.6 35B A3Bmedium