AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs xAI: Grok 4.1 Fast

Last updated at: 2026-03-12

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Grok 4.1 Fast Grok 4.1 Fast medium Release: 2025-11-19

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Grok 4.1 Fast Grok 4.1 Fast medium Release: 2025-11-19
Rank	#45	#32
Avg Score	4.9	6.2
Consistency	7.4	7.9
Cost per result	0.214	0.563
Total Cost	$0.015	$0.051
Tests Correct
Attempt pass rate	56.3%	66.7%
Flaky tests	5	4
Total Runs	48	48
Output Tokens	2,743	1,183
Reasoning Tokens	0	83,875
Response Time (avg)	2.49s	26.35s
Response Time (max)	6.70s	121.79s
Response Time (total)	39.91s	237.11s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		5.65s	102	4,021

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
Grok 4.1 Fast	9.9	10.0	100.0%	0		6.63s	180	5,409

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
Grok 4.1 Fast	4.0	4.4	66.7%	2		121.79s	11	37,657

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Grok 4.1 Fast	3.0	9.9	0.0%	0		16.25s	127	3,456

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Grok 4.1 Fast	5.5	10.0	50.0%	0		5.30s	55	3,489

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
Grok 4.1 Fast	4.0	7.2	44.4%	1		8.08s	187	6,086

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Grok 4.1 Fast	10.0	1.6	33.3%	1		27.71s	260	11,485

Quick Compare

Switch Comparison Pair

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-Litenonevsgpt-oss-120bmediumFree Available Grok 4.1 FastmediumvsGLM 5none Seed-2.0-LitenonevsMiniMax M2.5medium Seed-2.0-LitenonevsMercury 2medium Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsGPT-5 Nanomedium DeepSeek V3.2nonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsNemotron 3 Super 120b A12bmediumFree Available