Granite 4.1 8B vs Qwen3 Coder Next (medium)

Recommended model Qwen3 Coder Next (medium)

It has the strongest score in this comparison (4.7) and the best overall balance of cost and response time across all 2 models.

Detailed comparison

Metric	Granite 4.1 8B Granite 4.1 8B none Release: 2026-05-01	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03

Metric	Granite 4.1 8B Granite 4.1 8B none Release: 2026-05-01	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03
Score	4.0	4.7
Rank	#224	#209
Reliability	10.0	10.0
Consistency	10.0	9.0
Tests Correct
Attempt pass rate	9.1%	27.3%
Flaky tests	0	3
Total Runs	66	66
Cost per result	0.315	0.793
Total Cost	$0.007	$0.032
Input Price	$0.050 / 1M	$0.110 / 1M
Output Price	$0.100 / 1M	$0.800 / 1M
Total Input Tokens	113,827	148,194
Output Tokens	5,996	19,069
Reasoning Tokens	0	0
Response Time (avg)	1.45s	9.61s
Response Time (max)	16.67s	81.80s
Response Time (total)	31.96s	153.69s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

none

medium

Invalid SVG

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	645	903	0
Qwen3 Coder Next	3.5	8.1	16.7%	1		8.64s	645	1,252	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	4.5	10.0	0.0%	0		775ms	8,344	525	0
Qwen3 Coder Next	3.7	7.2	22.2%	1		924ms	7,185	336	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	3.0	10.0	0.0%	0		9.28s	86,631	3,481	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		14.65s	121,413	16,067	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	7,617	195	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		81.80s	7,758	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	768	24	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		638ms	753	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	528	115	0
Qwen3 Coder Next	6.3	3.4	66.7%	1		1.39s	498	142	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	687	66	0
Qwen3 Coder Next	6.3	10.0	50.0%	0		7.49s	684	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	3.2	10.0	0.0%	0		608ms	672	432	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		1.25s	678	671	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	7,719	243	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	8,364	255	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Granite 4.1 8B	3.0	10.0	0.0%	0		306ms	216	12	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		399ms	216	12	0

Switch Comparison Pair