AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3 Coder Next

Last updated at: 2026-03-12

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03
Rank	#45	#58
Avg Score	4.9	3.5
Consistency	7.4	9.1
Cost per result	0.214	0.230
Total Cost	$0.015	$0.007
Tests Correct
Attempt pass rate	56.3%	27.1%
Flaky tests	5	2
Total Runs	48	48
Output Tokens	2,743	2,935
Reasoning Tokens	0	0
Response Time (avg)	2.49s	12.53s
Response Time (max)	6.70s	81.80s
Response Time (total)	39.91s	125.32s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
Qwen3 Coder Next	1.3	7.5	22.2%	1		15.28s	1,246	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
Qwen3 Coder Next	10.0	10.0	0.0%	0		4.28s	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
Qwen3 Coder Next	5.4	10.0	50.0%	0		81.80s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
Qwen3 Coder Next	4.0	10.0	33.3%	0		638ms	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Qwen3 Coder Next	6.0	3.4	66.7%	1		1.39s	142	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Qwen3 Coder Next	4.5	10.0	0.0%	0		7.34s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
Qwen3 Coder Next	10.0	10.0	0.0%	0		2.30s	641	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	255	0

Quick Compare

Switch Comparison Pair

Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Nemotron 3 Super 120b A12bnoneFree AvailablevsQwen3 Coder Nextmedium Mercury 2nonevsQwen3 Coder Nextmedium Seed-2.0-Litenonevsgpt-oss-120bmediumFree Available Seed-2.0-LitenonevsMiniMax M2.5medium Seed-2.0-LitenonevsMercury 2medium Qwen3 Coder NextmediumvsGLM 4.7 Flashnone GPT-4o-mininonevsQwen3 Coder Nextmedium Kimi K2.5nonevsQwen3 Coder Nextmedium Seed-2.0-LitenonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsGPT-5 Nanomedium Qwen3 Coder NextmediumvsGrok 4.1 Fastnone