AI BENCHY Compare

Qwen: Qwen3 Coder Next vs GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT

Last updated at: 2026-04-02

Metric	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Release: Unknown release date

Metric	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Release: Unknown release date
Score	4.8	3.0
Rank	#81	#88
Consistency	9.2	10.0
Tests Correct
Attempt pass rate	25.5%	0.0%
Flaky tests	2	0
Total Runs	51	48
Cost per result	0.230	0.000
Total Cost	$0.007	$0.000
Input Price	$0.120 / 1M	$0.000 / 1M
Output Price	$0.750 / 1M	$0.000 / 1M
Output Tokens	2,941	0
Reasoning Tokens	0	0
Response Time (avg)	11.57s	0ms
Response Time (max)	81.80s	0ms
Response Time (total)	127.32s	0ms

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	3.5	8.1	16.7%	1		8.64s	1,252	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	3.0	10.0	0.0%	0		4.28s	317	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	6.5	10.0	50.0%	0		81.80s	246	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	5.3	10.0	33.3%	0		638ms	25	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	6.3	3.4	66.7%	1		1.39s	142	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	4.8	10.0	0.0%	0		7.34s	63	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	3.1	10.0	0.0%	0		2.30s	641	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	255	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Quick Compare

Switch Comparison Pair

GPT-5.4 MininonevsQwen3 Coder Nextmedium Mercury 2nonevsQwen3 Coder Nextmedium GPT-4o-mininonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Qwen3 Coder NextmediumvsMiMo-V2-Flashnone Nemotron 3 SupernoneFree AvailablevsQwen3 Coder Nextmedium Mistral Small 4nonevsQwen3 Coder Nextmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Trinity Large PreviewnoneFree AvailablevsQwen3 Coder Nextmedium Kimi K2.5nonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20none