AI BENCHY Compare

Qwen: Qwen3.5-35B-A3B vs xAI: Grok 4.20

Last updated at: 2026-04-14

Metric	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24	Grok 4.20 Grok 4.20 medium Release: 2026-03-31

Metric	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24	Grok 4.20 Grok 4.20 medium Release: 2026-03-31
Score	6.1	7.0
Rank	#60	#44
Consistency	8.7	7.8
Tests Correct
Attempt pass rate	50.0%	66.7%
Flaky tests	3	5
Total Runs	54	54
Cost per result	0.215	8.252
Total Cost	$0.016	$0.743
Input Price	$0.163 / 1M	$2.000 / 1M
Output Price	$1.300 / 1M	$6.000 / 1M
Output Tokens	4,300	1,744
Reasoning Tokens	0	109,882
Response Time (avg)	3.82s	10.33s
Response Time (max)	47.43s	29.87s
Response Time (total)	68.74s	185.87s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	574	0
Grok 4.20	8.2	7.9	83.3%	1		3.36s	280	8,476

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.67s	539	0
Grok 4.20	4.3	1.1	66.7%	1		24.33s	250	12,804

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	1,833	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	243	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	15	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	114	0
Grok 4.20	5.8	2.8	66.7%	1		7.09s	47	4,252

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	63	0
Grok 4.20	7.3	5.9	83.3%	1		4.42s	40	5,474

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	3.9	7.4	22.2%	1		1.34s	655	0
Grok 4.20	6.4	7.7	55.6%	1		3.89s	143	8,028

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620

Quick Compare

Switch Comparison Pair

Gemma 4 31BnoneFree AvailablevsGrok 4.20medium GPT-5 NanomediumvsQwen3.5-35B-A3Bnone Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone Grok 4.20mediumvsGLM 5none Mercury 2mediumvsQwen3.5-35B-A3Bnone MiniMax M2.5mediumFree AvailablevsQwen3.5-35B-A3Bnone Claude Sonnet 4.6nonevsGrok 4.20medium Mistral Small 4mediumvsQwen3.5-35B-A3Bnone Grok 4.20mediumvsMiMo-V2-Omninone Qwen3.5-35B-A3BnonevsGrok 4.1 Fastmedium Nemotron 3 SupermediumFree AvailablevsQwen3.5-35B-A3Bnone