AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.7 Max

Last updated at: 2026-05-22

Metric	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14	Qwen3.7 Max Qwen3.7 Max medium Release: 2026-05-22

Metric	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14	Qwen3.7 Max Qwen3.7 Max medium Release: 2026-05-22
Score	8.1	9.0
Rank	#21	#5
Reliability	10.0	10.0
Consistency	8.9	9.6
Tests Correct
Attempt pass rate	75.0%	88.3%
Flaky tests	3	1
Total Runs	60	60
Cost per result	1.170	5.540
Total Cost	$0.153	$0.942
Input Price	$0.250 / 1M	$2.500 / 1M
Output Price	$2.000 / 1M	$7.500 / 1M
Output Tokens	3,282	2,109
Reasoning Tokens	67,287	110,285
Response Time (avg)	36.79s	13.83s
Response Time (max)	168.71s	33.37s
Response Time (total)	735.86s	276.53s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	8.3	10.0	75.0%	0		17.99s	996	7,142
Qwen3.7 Max	10.0	10.0	100.0%	0		6.36s	222	8,742

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	7.0	9.7	50.0%	0		107.65s	452	20,524
Qwen3.7 Max	10.0	10.0	100.0%	0		22.98s	403	22,134

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Qwen3.7 Max	10.0	10.0	100.0%	0		19.60s	366	8,405

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
Qwen3.7 Max	10.0	10.0	100.0%	0		8.80s	270	6,254

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
Qwen3.7 Max	5.9	7.2	55.6%	1		24.94s	61	31,793

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
Qwen3.7 Max	10.0	10.0	100.0%	0		11.70s	135	4,457

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Qwen3.7 Max	10.0	10.0	100.0%	0		7.46s	102	5,452

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
Qwen3.7 Max	10.0	10.0	100.0%	0		8.84s	259	8,908

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Qwen3.7 Max	10.0	10.0	100.0%	0		6.63s	267	1,220

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	10.0	0.0%	0		48.32s	9	2,040
Qwen3.7 Max	3.0	10.0	0.0%	0		33.37s	24	12,920

Quick Compare

Switch Comparison Pair

GPT-5.5lowvsQwen3.7 Maxmedium Gemini 3.5 FlashnonevsQwen3.7 Maxmedium Seed-2.0-LitemediumvsGemini 3.5 Flashminimal Seed-2.0-LitemediumvsQwen3.7 Maxnone Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Gemini 3 Flash PreviewlowvsQwen3.7 Maxmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.5 FlashhighvsQwen3.7 Maxmedium