AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.5-35B-A3B

Last updated at: 2026-03-12

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Release: 2026-02-24

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Release: 2026-02-24
Rank	#45	#39
Avg Score	4.9	5.5
Consistency	7.4	6.3
Cost per result	0.214	4.251
Total Cost	$0.015	$0.341
Tests Correct
Attempt pass rate	56.3%	77.1%
Flaky tests	5	7
Total Runs	48	48
Output Tokens	2,743	5,495
Reasoning Tokens	0	169,266
Response Time (avg)	2.49s	43.93s
Response Time (max)	6.70s	106.00s
Response Time (total)	39.91s	702.85s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.75s	429	36,235

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
Qwen3.5-35B-A3B	10.0	1.6	66.7%	1		75.34s	775	12,485

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
Qwen3.5-35B-A3B	5.5	5.9	83.3%	1		59.33s	235	19,493

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
Qwen3.5-35B-A3B	10.0	4.4	44.5%	2		88.34s	41	46,368

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Qwen3.5-35B-A3B	10.0	1.6	33.3%	1		30.30s	20	3,753

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
Qwen3.5-35B-A3B	4.0	4.4	77.8%	2		31.58s	3,589	32,206

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

Quick Compare

Switch Comparison Pair

DeepSeek V3.2nonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-Litenonevsgpt-oss-120bmediumFree Available Seed-2.0-LitenonevsMiniMax M2.5medium Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsMercury 2medium Qwen3.5-35B-A3BmediumvsGLM 5none Seed-2.0-LitenonevsGPT-5 Nanomedium Seed-2.0-LitenonevsNemotron 3 Super 120b A12bmediumFree Available Hunter AlphanonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsHunter Alphamedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium