AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Mistral: Mistral Small 4

Last updated at: 2026-03-17

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Mistral Small 4 Mistral Small 4 medium Release: 2026-03-16

Metric	Seed-2.0-Lite Seed-2.0-Lite none Release: 2026-02-14	Mistral Small 4 Mistral Small 4 medium Release: 2026-03-16
Rank	#47	#55
Score	6.0	5.6
Consistency	7.6	7.0
Cost per result	0.215	0.502
Total Cost	$0.016	$0.026
Tests Correct
Attempt pass rate	52.9%	49.0%
Flaky tests	5	6
Total Runs	51	51
Output Tokens	2,749	12,288
Reasoning Tokens	0	28,112
Response Time (avg)	2.40s	4.18s
Response Time (max)	6.70s	25.25s
Response Time (total)	40.85s	71.03s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
Mistral Small 4	5.6	3.8	66.7%	3		2.67s	4,055	4,778

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
Mistral Small 4	3.0	10.0	0.0%	0		25.25s	2,612	10,700

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
Mistral Small 4	7.3	5.9	83.3%	1		1.23s	335	723

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
Mistral Small 4	5.3	7.2	44.4%	1		6.11s	2,621	6,904

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Mistral Small 4	4.8	10.0	0.0%	0		2.05s	821	828

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Mistral Small 4	7.3	5.8	83.3%	1		1.38s	540	1,031

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
Mistral Small 4	3.4	9.7	0.0%	0		2.00s	983	2,338

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Mistral Small 4	10.0	10.0	100.0%	0		3.50s	321	810

Quick Compare

Switch Comparison Pair

Seed-2.0-Litenonevsgpt-oss-120bmediumFree Available Mistral Small 4mediumvsGLM 5 Turbonone Mistral Small 4mediumvsGLM 4.7 Flashnone Mistral Small 4mediumvsQwen3.5-27Bnone Mistral Small 4mediumvsGPT-5.4none Seed-2.0-LitenonevsMiniMax M2.5mediumFree Available Mistral Small 4mediumvsQwen3.5-122B-A10Bnone Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Mistral Small 4mediumvsGrok 4.20 Betanone Mistral Small 4mediumvsKimi K2.5none Seed-2.0-LitenonevsGPT-5 Nanomedium Mistral Small 4mediumvsHunter Alphanone