AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.6 27B

Last updated at: 2026-04-27

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Qwen3.6 27B Qwen3.6 27B none Release: 2026-04-20

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Qwen3.6 27B Qwen3.6 27B none Release: 2026-04-20
Score	6.2	6.0
Rank	#78	#81
Reliability	N/A	10.0
Consistency	7.7	7.2
Tests Correct
Attempt pass rate	55.6%	55.6%
Flaky tests	5	6
Total Runs	54	54
Cost per result	0.200	0.433
Total Cost	$0.016	$0.031
Input Price	$0.250 / 1M	$0.500 / 1M
Output Price	$2.000 / 1M	$2.000 / 1M
Output Tokens	3,129	3,775
Reasoning Tokens	0	0
Response Time (avg)	2.53s	4.00s
Response Time (max)	6.70s	12.08s
Response Time (total)	45.46s	72.01s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
Qwen3.6 27B	3.8	3.7	41.7%	3		2.83s	490	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		4.61s	380	0
Qwen3.6 27B	10.0	10.0	100.0%	0		10.18s	505	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
Qwen3.6 27B	3.0	10.0	0.0%	0		9.95s	1,401	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
Qwen3.6 27B	7.3	5.8	83.3%	1		2.06s	248	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
Qwen3.6 27B	7.7	10.0	66.7%	0		3.03s	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Qwen3.6 27B	5.2	9.9	0.0%	0		1.07s	72	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Qwen3.6 27B	6.2	5.8	66.7%	1		1.92s	49	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
Qwen3.6 27B	5.3	7.2	44.4%	1		5.24s	647	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Qwen3.6 27B	9.5	10.0	100.0%	0		6.74s	339	0

Quick Compare

Switch Comparison Pair

Seed-2.0-LitenonevsGPT-5 Nanomedium gpt-oss-120bmediumFree AvailablevsQwen3.6 27Bnone GPT-5 NanomediumvsQwen3.6 27Bnone Seed-2.0-Litenonevsgpt-oss-120bmediumFree Available Seed-2.0-LitenonevsMercury 2medium MiniMax M2.5mediumFree AvailablevsQwen3.6 27Bnone Mistral Small 4mediumvsQwen3.6 27Bnone Mercury 2mediumvsQwen3.6 27Bnone Seed-2.0-LitenonevsMiniMax M2.5mediumFree Available Seed-2.0-LitenonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsMistral Small 4medium Seed-2.0-LitenonevsNemotron 3 SupermediumFree Available