AI BENCHY Compare

Qwen: Qwen3.5-35B-A3B vs xAI: Grok 4.20 Beta

Last updated at: 2026-03-12

Metric	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta none Release: 2026-03-12

Metric	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta none Release: 2026-03-12
Rank	#48	#52
Avg Score	4.7	4.4
Consistency	8.6	9.1
Cost per result	0.237	2.214
Total Cost	$0.015	$0.089
Tests Correct
Attempt pass rate	50.0%	33.3%
Flaky tests	3	2
Total Runs	48	48
Output Tokens	3,756	1,511
Reasoning Tokens	0	0
Response Time (avg)	4.10s	1.22s
Response Time (max)	47.43s	6.48s
Response Time (total)	65.62s	19.53s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	10.0	7.2	22.2%	1		1.76s	569	0
Grok 4.20 Beta	3.3	7.9	22.2%	1		562ms	245	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	10.0	10.0	0.0%	0		47.43s	1,833	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		6.48s	282	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	9.9	10.0	100.0%	0		1.16s	243	0
Grok 4.20 Beta	9.9	10.0	100.0%	0		601ms	197	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	7.0	10.0	66.7%	0		485ms	15	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		611ms	160	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	6.0	3.4	66.7%	1		1.19s	114	0
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	5.0	10.0	50.0%	0		809ms	63	0
Grok 4.20 Beta	4.5	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	1.7	7.4	22.2%	1		1.34s	655	0
Grok 4.20 Beta	4.0	7.2	55.6%	1		541ms	291	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Quick Compare

Switch Comparison Pair

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsGrok 4.20 Betanone gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumFree AvailablevsGrok 4.20 Betanone GPT-5 NanomediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20 Betanone Nemotron 3 Super 120b A12bmediumFree AvailablevsQwen3.5-35B-A3Bnone Qwen3.5-35B-A3BmediumvsGrok 4.20 Betanone GPT-5 NanomediumvsGrok 4.20 Betanone