AI BENCHY Compare

Qwen: Qwen3.5-9B vs Qwen: Qwen3 Coder Next

Last updated at: 2026-04-04

Metric	Qwen3.5-9B Qwen3.5-9B medium Release: 2026-03-02	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03

Metric	Qwen3.5-9B Qwen3.5-9B medium Release: 2026-03-02	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03
Score	4.5	4.8
Rank	#85	#83
Consistency	7.0	9.2
Tests Correct
Attempt pass rate	35.3%	25.5%
Flaky tests	6	2
Total Runs	51	51
Cost per result	0.787	0.230
Total Cost	$0.024	$0.007
Input Price	$0.050 / 1M	$0.120 / 1M
Output Price	$0.150 / 1M	$0.750 / 1M
Output Tokens	18,141	2,941
Reasoning Tokens	141,204	0
Response Time (avg)	69.21s	11.57s
Response Time (max)	226.38s	81.80s
Response Time (total)	968.99s	127.32s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411
Qwen3 Coder Next	3.5	8.1	16.7%	1		8.64s	1,252	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		4.28s	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113
Qwen3 Coder Next	6.5	10.0	50.0%	0		81.80s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475
Qwen3 Coder Next	5.3	10.0	33.3%	0		638ms	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695
Qwen3 Coder Next	6.3	3.4	66.7%	1		1.39s	142	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517
Qwen3 Coder Next	4.8	10.0	0.0%	0		7.34s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844
Qwen3 Coder Next	3.1	10.0	0.0%	0		2.30s	641	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	255	0

Quick Compare

Switch Comparison Pair

Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone GPT-5.4 MininonevsQwen3 Coder Nextmedium Mercury 2nonevsQwen3 Coder Nextmedium GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Qwen3 Coder NextmediumvsMiMo-V2-Flashnone GPT-5.4 MininonevsQwen3.5-9Bmedium Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 SupernoneFree AvailablevsQwen3 Coder Nextmedium Mistral Small 4nonevsQwen3 Coder Nextmedium