AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Qwen: Qwen3 Coder Next

Last updated at: 2026-05-19

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03
Score	5.7	5.2
Rank	#111	#128
Reliability	10.0	10.0
Consistency	7.9	9.7
Tests Correct
Attempt pass rate	49.1%	29.8%
Flaky tests	5	1
Total Runs	57	57
Cost per result	0.218	0.151
Total Cost	$0.016	$0.008
Input Price	$0.252 / 1M	$0.110 / 1M
Output Price	$0.378 / 1M	$0.800 / 1M
Output Tokens	7,194	3,629
Reasoning Tokens	0	0
Response Time (avg)	13.43s	9.44s
Response Time (max)	115.89s	45.14s
Response Time (total)	255.10s	122.73s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.3	8.2	12.5%	1		9.35s	1,073	0
Qwen3 Coder Next	3.6	10.0	0.0%	0		3.31s	1,321	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	2.4	1.3	33.3%	1		7.63s	553	0
Qwen3 Coder Next	7.3	3.7	66.7%	1		3.14s	585	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		45.14s	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		1.32s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.0	6.9	16.7%	1		4.17s	21	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		962ms	26	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	7.6	10.0	100.0%	0		9.32s	43	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		1.34s	152	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
Qwen3 Coder Next	6.3	10.0	50.0%	0		7.71s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	7.5	7.7	88.9%	1		7.13s	302	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		22.86s	652	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.47s	255	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	17	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		601ms	12	0

Quick Compare

Switch Comparison Pair

MiniMax M2.7mediumvsQwen3 Coder Nextnone DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available DeepSeek V3.2nonevsMiniMax M2.5mediumFree Available DeepSeek V3.2nonevsMistral Small 4medium DeepSeek V3.2nonevsElephant Alphamedium CobuddymediumFree AvailablevsDeepSeek V3.2none Elephant AlphamediumvsQwen3 Coder Nextnone DeepSeek V3.2nonevsOwl Alphamedium Mistral Small 4mediumvsQwen3 Coder Nextnone MiniMax M2.5mediumFree AvailablevsQwen3 Coder Nextnone DeepSeek V3.2nonevsNemotron 3 SupermediumFree Available DeepSeek V3.2nonevsMiniMax M2.7medium