AI BENCHY Compare

Qwen: Qwen3.5-27B vs xAI: Grok 4.20

Last updated at: 2026-04-14

Metric	Qwen3.5-27B Qwen3.5-27B none Release: 2026-02-24	Grok 4.20 Grok 4.20 medium Release: 2026-03-31

Metric	Qwen3.5-27B Qwen3.5-27B none Release: 2026-02-24	Grok 4.20 Grok 4.20 medium Release: 2026-03-31
Score	5.9	7.0
Rank	#64	#44
Consistency	9.2	7.8
Tests Correct
Attempt pass rate	38.9%	66.7%
Flaky tests	2	5
Total Runs	54	54
Cost per result	0.265	8.252
Total Cost	$0.016	$0.743
Input Price	$0.195 / 1M	$2.000 / 1M
Output Price	$1.560 / 1M	$6.000 / 1M
Output Tokens	3,545	1,744
Reasoning Tokens	0	109,882
Response Time (avg)	1.74s	10.33s
Response Time (max)	9.39s	29.87s
Response Time (total)	31.32s	185.87s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	4.8	10.0	25.0%	0		788ms	267	0
Grok 4.20	8.2	7.9	83.3%	1		3.36s	280	8,476

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		2.51s	381	0
Grok 4.20	4.3	1.1	66.7%	1		24.33s	250	12,804

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	2.8	1.6	33.3%	1		9.39s	1,461	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		1.43s	243	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	3.0	10.0	0.0%	0		540ms	15	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	126	0
Grok 4.20	5.8	2.8	66.7%	1		7.09s	47	4,252

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	4.8	10.0	0.0%	0		815ms	69	0
Grok 4.20	7.3	5.9	83.3%	1		4.42s	40	5,474

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	6.7	7.9	55.6%	1		1.37s	680	0
Grok 4.20	6.4	7.7	55.6%	1		3.89s	143	8,028

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620

Quick Compare

Switch Comparison Pair

gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone Gemma 4 31BnoneFree AvailablevsGrok 4.20medium MiniMax M2.5mediumFree AvailablevsQwen3.5-27Bnone Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium Mistral Small 4mediumvsQwen3.5-27Bnone Grok 4.20mediumvsGLM 5none GPT-5 NanomediumvsQwen3.5-27Bnone Claude Sonnet 4.6nonevsGrok 4.20medium Grok 4.20mediumvsMiMo-V2-Omninone MiniMax M2.7mediumvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-27Bnone ElephantmediumvsQwen3.5-27Bnone