AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs DeepSeek: DeepSeek V3.2

Last updated at: 2026-03-12

Metric	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01

Metric	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01
Rank	#3	#37
Avg Score	8.5	5.5
Consistency	8.7	8.4
Cost per result	0.870	0.220
Total Cost	$0.105	$0.016
Tests Correct
Attempt pass rate	87.5%	54.2%
Flaky tests	3	3
Total Runs	48	48
Output Tokens	2,815	7,823
Reasoning Tokens	44,618	0
Response Time (avg)	29.39s	12.86s
Response Time (max)	168.71s	115.89s
Response Time (total)	470.29s	205.78s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
DeepSeek V3.2	10.0	9.7	0.0%	0		8.79s	1,411	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
DeepSeek V3.2	8.0	10.0	0.0%	0		115.89s	2,887	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
DeepSeek V3.2	5.4	5.8	66.7%	1		9.42s	1,710	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
DeepSeek V3.2	10.0	7.2	22.2%	1		1.61s	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
DeepSeek V3.2	10.0	10.0	100.0%	0		2.86s	67	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
DeepSeek V3.2	7.7	7.5	88.9%	1		7.37s	1,136	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0

Quick Compare

Switch Comparison Pair

DeepSeek V3.2nonevsGPT-5 Nanomedium DeepSeek V3.2nonevsQwen3.5-35B-A3Bmedium DeepSeek V3.2nonevsMercury 2medium DeepSeek V3.2nonevsNemotron 3 Super 120b A12bmediumFree Available Seed-2.0-LitemediumvsGemini 3 Flash Previewlow DeepSeek V3.2nonevsHunter Alphamedium DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available DeepSeek V3.2nonevsGPT-5 Minimedium DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium DeepSeek V3.2nonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsMiniMax M2.5medium DeepSeek V3.2nonevsKimi K2.5medium