AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs Qwen: Qwen3 Coder Next

Last updated at: 2026-04-29

Metric	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03

Metric	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03
Score	4.5	5.1
Rank	#128	#113
Reliability	N/A	N/A
Consistency	7.1	9.7
Tests Correct
Attempt pass rate	31.5%	25.9%
Flaky tests	7	1
Total Runs	54	54
Cost per result	0.448	0.188
Total Cost	$0.009	$0.008
Input Price	$0.200 / 1M	$0.140 / 1M
Output Price	$1.250 / 1M	$0.800 / 1M
Output Tokens	2,762	3,617
Reasoning Tokens	0	0
Response Time (avg)	1.40s	10.18s
Response Time (max)	3.84s	45.14s
Response Time (total)	25.14s	122.13s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0
Qwen3 Coder Next	3.6	10.0	0.0%	0		3.31s	1,321	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	7.1	3.7	66.7%	1		1.43s	577	0
Qwen3 Coder Next	7.3	3.7	66.7%	1		3.14s	585	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		45.14s	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		1.32s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		962ms	26	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		1.34s	152	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	5.0	6.8	33.3%	1		787ms	84	0
Qwen3 Coder Next	4.8	10.0	0.0%	0		7.71s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0
Qwen3 Coder Next	3.2	10.0	0.0%	0		22.86s	652	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.47s	255	0

Quick Compare

Switch Comparison Pair

GPT-5.4 NanononevsQwen3.5-9Bmedium Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsQwen3 Coder Nextnone Elephant AlphamediumvsQwen3 Coder Nextnone GPT-5.4 NanononevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsQwen3 Coder Nextnone GPT-5.4 NanononevsQwen3 Coder Nextmedium Qwen3 Coder NextnonevsGLM 4.7 Flashmedium Mistral Small 4mediumvsQwen3 Coder Nextnone MiniMax M2.5mediumFree AvailablevsQwen3 Coder Nextnone gpt-oss-120bmediumFree AvailablevsQwen3 Coder Nextnone Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsGPT-5.4 Nanonone GPT-5.4 NanononevsElephant Alphamedium