AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs OpenAI: GPT-5.5

Last updated at: 2026-05-22

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	GPT-5.5 GPT-5.5 none Release: 2026-04-24

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	GPT-5.5 GPT-5.5 none Release: 2026-04-24
Score	5.9	6.5
Rank	#99	#86
Reliability	10.0	10.0
Consistency	7.9	8.7
Tests Correct
Attempt pass rate	50.0%	56.7%
Flaky tests	5	3
Total Runs	60	60
Cost per result	0.216	2.165
Total Cost	$0.018	$0.217
Input Price	$0.250 / 1M	$5.000 / 1M
Output Price	$2.000 / 1M	$30.000 / 1M
Output Tokens	3,164	1,949
Reasoning Tokens	0	0
Response Time (avg)	2.44s	1.94s
Response Time (max)	6.70s	5.56s
Response Time (total)	48.71s	38.86s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
GPT-5.5	6.9	7.9	66.7%	1		1.31s	213	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	6.8	9.9	50.0%	0		2.95s	404	0
GPT-5.5	6.8	10.0	50.0%	0		1.52s	447	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
GPT-5.5	3.0	10.0	0.0%	0		5.56s	300	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
GPT-5.5	10.0	10.0	100.0%	0		1.18s	222	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
GPT-5.5	2.9	7.2	11.1%	1		1.31s	52	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
GPT-5.5	10.0	10.0	100.0%	0		3.41s	124	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
GPT-5.5	6.2	5.8	66.7%	1		1.15s	81	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
GPT-5.5	7.7	10.0	66.7%	0		1.36s	245	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
GPT-5.5	10.0	10.0	100.0%	0		3.90s	247	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	10.0	0.0%	0		1.96s	11	0
GPT-5.5	3.0	10.0	0.0%	0		5.01s	18	0

Quick Compare

Switch Comparison Pair

Seed-2.0-LitenonevsOwl Alphamedium GPT-5.5nonevsQwen3.6 27Bmedium Seed-2.0-LitenonevsNemotron 3 SupermediumFree Available DeepSeek V4 ProhighvsGPT-5.5none Kimi K2.5mediumvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsGPT-5.5none CobuddymediumFree AvailablevsSeed-2.0-Litenone GPT-5.5nonevsGrok 4.20medium Seed-2.0-LitenonevsGPT-5 Nanomedium Seed-2.0-Litenonevsgpt-oss-120bmediumFree Available Mercury 2mediumvsGPT-5.5none Seed-2.0-LitenonevsMercury 2medium