AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Z.ai: GLM 5

Last updated at: 2026-03-12

Metric	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14	GLM 5 GLM 5 none Release: 2026-02-12

Metric	Seed-2.0-Lite Seed-2.0-Lite medium Release: 2026-02-14	GLM 5 GLM 5 none Release: 2026-02-12
Rank	#3	#33
Avg Score	8.5	6.0
Consistency	8.7	10.0
Cost per result	0.870	0.200
Total Cost	$0.105	$0.018
Tests Correct
Attempt pass rate	87.5%	56.3%
Flaky tests	3	0
Total Runs	48	48
Output Tokens	2,815	1,548
Reasoning Tokens	44,618	0
Response Time (avg)	29.39s	4.03s
Response Time (max)	168.71s	11.07s
Response Time (total)	470.29s	36.30s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
GLM 5	4.0	10.0	33.3%	0		3.39s	272	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
GLM 5	10.0	10.0	0.0%	0		4.98s	406	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
GLM 5	9.9	10.0	100.0%	0		5.78s	203	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
GLM 5	10.0	10.0	0.0%	0		2.24s	19	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
GLM 5	7.0	10.0	66.7%	0		2.05s	264	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Quick Compare

Switch Comparison Pair

GPT-5 MinimediumvsGLM 5none Hunter AlphamediumvsGLM 5none Grok 4.1 FastmediumvsGLM 5none Nemotron 3 Super 120b A12bmediumFree AvailablevsGLM 5none Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Kimi K2.5mediumvsGLM 5none GPT-5.2mediumvsGLM 5none GPT-5 NanomediumvsGLM 5none Qwen3.5-35B-A3BmediumvsGLM 5none Claude Opus 4.6mediumvsGLM 5none Mercury 2mediumvsGLM 5none Qwen3.5-FlashmediumvsGLM 5none