AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3 Coder Next

Last updated at: 2026-03-17

Metric	GPT-5.4 Mini GPT-5.4 Mini none Release: 2026-03-17	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03

Metric	GPT-5.4 Mini GPT-5.4 Mini none Release: 2026-03-17	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03
Rank	#66	#64
Score	4.8	5.0
Consistency	8.6	10.0
Cost per result	0.737	0.175
Total Cost	$0.030	$0.007
Tests Correct
Attempt pass rate	31.4%	23.5%
Flaky tests	3	0
Total Runs	51	51
Output Tokens	2,085	3,032
Reasoning Tokens	0	0
Response Time (avg)	1.17s	10.82s
Response Time (max)	2.52s	45.14s
Response Time (total)	19.82s	118.99s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0
Qwen3 Coder Next	3.6	10.0	0.0%	0		3.31s	1,321	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		45.14s	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		1.32s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		962ms	26	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		1.34s	152	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0
Qwen3 Coder Next	4.8	10.0	0.0%	0		7.71s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0
Qwen3 Coder Next	3.2	10.0	0.0%	0		22.86s	652	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.47s	255	0

Quick Compare

Switch Comparison Pair

GPT-5.4 MininonevsQwen3 Coder Nextmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium Qwen3 Coder NextnonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsQwen3.5-9Bmedium Mistral Small 4mediumvsQwen3 Coder Nextnone Mistral Small 4mediumvsGPT-5.4 Mininone MiniMax M2.5mediumFree AvailablevsQwen3 Coder Nextnone gpt-oss-120bmediumFree AvailablevsQwen3 Coder Nextnone MiniMax M2.5mediumFree AvailablevsGPT-5.4 Mininone Qwen3 Coder NextnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3 Coder Nextnone Mercury 2mediumvsQwen3 Coder Nextnone