AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Qwen: Qwen3.5-122B-A10B

Last updated at: 2026-04-14

Metric	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Release: 2026-02-24

Metric	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Release: 2026-02-24
Score	9.6	8.1
Rank	#2	#17
Consistency	10.0	8.6
Tests Correct
Attempt pass rate	94.4%	79.6%
Flaky tests	0	3
Total Runs	54	54
Cost per result	3.400	4.060
Total Cost	$0.578	$0.528
Input Price	$2.000 / 1M	$0.260 / 1M
Output Price	$12.000 / 1M	$2.080 / 1M
Output Tokens	1,932	17,635
Reasoning Tokens	40,542	162,668
Response Time (avg)	15.96s	31.38s
Response Time (max)	40.61s	119.29s
Response Time (total)	175.52s	564.84s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	269	16,835

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
Qwen3.5-122B-A10B	4.7	1.6	66.7%	1		70.98s	322	10,694

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	483	11,337

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	270	16,558

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	15,537	64,889

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	66	7,592

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	77	7,372

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.18s	289	26,165

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	322	1,226

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium GPT-5.3 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6nonevsQwen3.5-122B-A10Bmedium Gemma 4 31BnoneFree AvailablevsQwen3.5-122B-A10Bmedium Qwen3.5-122B-A10BmediumvsGLM 5none Gemini 3.1 Pro PreviewmediumvsGPT-5.2 Chatnone Qwen3.5-122B-A10BmediumvsMiMo-V2-Omninone Gemini 3.1 Pro PreviewmediumvsGPT-5.3 Chatnone