AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs ByteDance Seed: Seed-2.0-Lite

Last updated at: 2026-05-29

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14
Score	8.9	8.1
Rank	#7	#24
Reliability	10.0	10.0
Consistency	10.0	8.9
Tests Correct
Attempt pass rate	85.0%	75.0%
Flaky tests	0	3
Total Runs	60	60
Cost per result	3.670	1.166
Total Cost	$0.624	$0.152
Input Price	$5.000 / 1M	$0.250 / 1M
Output Price	$25.000 / 1M	$2.000 / 1M
Output Tokens	10,439	3,224
Reasoning Tokens	2,198	67,040
Response Time (avg)	4.48s	36.67s
Response Time (max)	23.18s	168.71s
Response Time (total)	85.21s	733.46s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	348	0
Seed-2.0-Lite	8.3	10.0	75.0%	0		17.99s	996	7,142

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		14.79s	6,210	1,114
Seed-2.0-Lite	7.0	9.7	50.0%	0		107.65s	452	20,524

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	2,369	1,084
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	324	0
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	51	0
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	256	0
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	114	0
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	370	0
Seed-2.0-Lite	9.0	7.9	88.9%	1		10.23s	403	3,285

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	373	0
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	24	0
Seed-2.0-Lite	3.0	10.0	0.0%	0		48.32s	9	2,040

Quick Compare

Switch Comparison Pair

Claude Opus 4.7mediumvsGPT-5.5low Claude Opus 4.7mediumvsGemini 3.5 Flashnone Seed-2.0-LitemediumvsGemini 3.5 Flashminimal Seed-2.0-LitemediumvsQwen3.7 Maxnone Seed-2.0-LitemediumvsGPT-5.2 Chatnone Claude Opus 4.7mediumvsGemini 3 Flash Previewlow Claude Opus 4.7mediumvsGemini 3.5 Flashlow Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Seed-2.0-LitemediumvsDeepSeek V4 FlashhighFree Available Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone