AI BENCHY Compare

Qwen: Qwen3.5-27B vs xAI: Grok 4.3

Last updated at: 2026-05-01

Metric	Qwen3.5-27B Qwen3.5-27B medium Release: 2026-02-24	Grok 4.3 Grok 4.3 medium Release: 2026-05-01

Metric	Qwen3.5-27B Qwen3.5-27B medium Release: 2026-02-24	Grok 4.3 Grok 4.3 medium Release: 2026-05-01
Score	8.4	8.2
Rank	#16	#20
Reliability	N/A	10.0
Consistency	8.8	8.6
Tests Correct
Attempt pass rate	81.5%	81.5%
Flaky tests	3	3
Total Runs	54	54
Cost per result	3.822	3.974
Total Cost	$0.497	$0.517
Input Price	$0.195 / 1M	$1.250 / 1M
Output Price	$1.560 / 1M	$2.500 / 1M
Output Tokens	2,500	1,223
Reasoning Tokens	242,500	187,047
Response Time (avg)	53.03s	48.63s
Response Time (max)	163.96s	216.69s
Response Time (total)	954.46s	875.27s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	569	31,505
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		70.35s	375	19,165
Grok 4.3	10.0	10.0	100.0%	0		45.72s	284	9,659

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	270	16,150
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	43	52,368
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	70	23,147
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	8.2	7.7	77.8%	1		64.61s	245	77,213
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Quick Compare

Switch Comparison Pair

HY3 PreviewlowFree AvailablevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Qwen3.5-27BmediumvsHY3 PreviewhighFree Available Qwen3.5-27BmediumvsHY3 PreviewlowFree Available GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bmedium Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium GPT-5.3 ChatnonevsGrok 4.3medium HY3 PreviewhighFree AvailablevsGrok 4.3medium