AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3 Coder Next

Last updated at: 2026-04-11

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03
Score	5.2	4.7
Rank	#79	#86
Consistency	7.9	8.7
Tests Correct
Attempt pass rate	38.9%	27.8%
Flaky tests	5	3
Total Runs	54	54
Cost per result	0.221	0.240
Total Cost	$0.009	$0.008
Input Price	$0.039 / 1M	$0.120 / 1M
Output Price	$0.190 / 1M	$0.750 / 1M
Output Tokens	44,652	3,241
Reasoning Tokens	0	0
Response Time (avg)	11.96s	10.75s
Response Time (max)	68.97s	81.80s
Response Time (total)	179.34s	129.01s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.6	8.0	58.3%	1		6.03s	4,867	0
Qwen3 Coder Next	3.5	8.1	16.7%	1		8.64s	1,252	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0
Qwen3 Coder Next	4.7	1.6	66.7%	1		1.69s	300	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		4.28s	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		81.80s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		638ms	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.6	10.0	0.0%	0		2.83s	586	0
Qwen3 Coder Next	6.3	3.4	66.7%	1		1.39s	142	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	8.4	6.9	83.3%	1		5.10s	1,982	0
Qwen3 Coder Next	4.8	10.0	0.0%	0		7.34s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.5	4.8	44.5%	2		6.86s	3,904	0
Qwen3 Coder Next	3.1	10.0	0.0%	0		2.30s	641	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	255	0

Quick Compare

Switch Comparison Pair

MiniMax M2.7mediumvsgpt-oss-120bnoneFree Available Mercury 2nonevsQwen3 Coder Nextmedium GPT-4o-mininonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsMiMo-V2-Flashnone Qwen3 Coder NextmediumvsGrok 4.1 Fastnone GPT-5.4 NanononevsQwen3 Coder Nextmedium Nemotron 3 SupernoneFree AvailablevsQwen3 Coder Nextmedium GPT-5.4 MininonevsQwen3 Coder Nextmedium Mistral Small 4mediumvsgpt-oss-120bnoneFree Available MiniMax M2.5mediumFree Availablevsgpt-oss-120bnoneFree Available Mistral Small 4nonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsGrok 4.20none