Qwen3.7 Plus vs Grok 4.3 (medium)

Rank: #81
Total Output Tokens: 58,097
Response Time (avg): 12.09s
Total Cost: $0.106

Rank: #83
Total Output Tokens: 241,421
Response Time (avg): 47.45s
Total Cost: $0.779

Recommended model Qwen3.7 Plus

It has the best score here (7.2), while costing about 7.3x less than Grok 4.3 (medium).

Detailed comparison

Metric	Qwen3.7 Plus Qwen3.7 Plus none Release: 2026-06-03	Grok 4.3 Grok 4.3 medium Release: 2026-05-01

Metric	Qwen3.7 Plus Qwen3.7 Plus none Release: 2026-06-03	Grok 4.3 Grok 4.3 medium Release: 2026-05-01
Score	7.2	7.1
Rank	#81	#83
Reliability	10.0	10.0
Consistency	10.0	8.6
Tests Correct
Attempt pass rate	50.0%	68.2%
Flaky tests	0	4
Total Runs	66	66
Cost per result	1.014	5.990
Total Cost	$0.106	$0.779
Input Price	$0.320 / 1M	$1.250 / 1M
Output Price	$1.280 / 1M	$2.500 / 1M
Total Input Tokens	98,824	140,031
Output Tokens	58,097	13,739
Reasoning Tokens	0	227,682
Response Time (avg)	12.09s	47.45s
Response Time (max)	206.03s	216.69s
Response Time (total)	265.89s	1043.83s

Model generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#81 Qwen3.7 Plus

none

Cost: $0.019
Time: 213.5s
Tokens: 11,960 tok

#83 xAI: Grok 4.3

medium

Cost: $0.009
Time: 19.0s
Tokens: 3,661 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	6.5	10.0	50.0%	0		1.38s	696	349	0
Grok 4.3	10.0	10.0	100.0%	0		8.83s	2,010	88	8,207

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	5.5	10.0	33.3%	0		2.15s	7,911	639	0
Grok 4.3	5.9	7.7	44.4%	1		41.23s	8,340	1,028	31,226

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	10.0	10.0	100.0%	0		117.70s	71,266	56,024	0
Grok 4.3	6.5	10.0	50.0%	0		55.07s	108,468	11,992	21,601

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	10.0	10.0	100.0%	0		1.43s	7,794	243	0
Grok 4.3	10.0	10.0	100.0%	0		18.97s	7,761	180	9,546

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	3.0	10.0	0.0%	0		868ms	789	18	0
Grok 4.3	5.3	7.2	44.4%	1		181.74s	1,764	14	111,300

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	5.3	10.0	0.0%	0		1.33s	522	78	0
Grok 4.3	5.4	2.5	66.7%	1		24.70s	825	70	5,020

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	6.3	10.0	50.0%	0		929ms	711	72	0
Grok 4.3	9.8	10.0	100.0%	0		18.58s	1,362	57	8,713

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	7.7	10.0	66.7%	0		1.71s	714	443	0
Grok 4.3	5.9	7.2	55.6%	1		22.52s	1,689	128	14,468

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	10.0	10.0	100.0%	0		3.54s	8,211	222	0
Grok 4.3	10.0	10.0	100.0%	0		17.66s	7,263	168	4,615

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Qwen3.7 Plus	3.0	10.0	0.0%	0		1.21s	210	9	0
Grok 4.3	3.0	10.0	0.0%	0		44.47s	549	14	12,986

Quick Compare

Switch Comparison Pair

Qwen3.7 PlusnonevsGLM 5.1medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsQwen3.7 Plusnone Kimi K2.6mediumvsQwen3.7 Plusnone Qwen3.7 PlusnonevsStep 3.7 Flashlow KAT-Coder-Pro V2.5highvsGrok 4.3medium Step 3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.3medium Qwen3.7 FlashlowvsGrok 4.3medium Gemini 3.1 Flash LitemediumvsQwen3.7 Plusnone Gemini 3.5 FlashnonevsGrok 4.3medium DeepSeek V3.2mediumvsQwen3.7 Plusnone