Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Google: Gemini 3.1 Flash Lite Preview

Compare:

Last updated at: 2026-03-06

Metric	ByteDance Seed: Seed-2.0-Mini medium Release: 2026-02-14	Google: Gemini 3.1 Flash Lite Preview high Release: 2026-03-03
Rank	#23	#8
Avg Score	6.9	8.2
Consistency	9.1	9.6
Cost per result	0.280	19.243
Total Cost	$0.028	$2.310
Tests Correct
Attempt pass rate	68.8%	77.1%
Flaky tests	2	1
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Output Tokens	1,965	1,283
Reasoning Tokens	58,456	1,533,310
Response Time (avg)	65.09s	68.83s
Response Time (max)	262.83s	280.52s
Response Time (total)	846.14s	1101.32s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		43.87s	144	193,077

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		280.52s	335	380,440

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		7.16s	279	6,186

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		127.58s	18	566,202

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	6.0	3.4	33.3%	1		36.65s	213	4,210
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		5.25s	117	3,915

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
Google: Gemini 3.1 Flash Lite Preview	9.0	6.9	66.7%	1		70.07s	69	190,053

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		46.33s	87	190,953

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		7.73s	234	2,484

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3.1 Flash Lite PreviewhighvsQwen3.5 Plus 2026-02-15medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Seed-2.0-MinimediumvsGemini 3 Flash Previewnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Seed-2.0-MinimediumvsGPT-5.2 Chatnone