AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 2.5 Flash

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-16

Metrik	Seed-2.0-Lite Seed-2.0-Lite none Rilis: 2026-02-14	Gemini 2.5 Flash Gemini 2.5 Flash medium Rilis: 2025-06-17

Metrik	Seed-2.0-Lite Seed-2.0-Lite none Rilis: 2026-02-14	Gemini 2.5 Flash Gemini 2.5 Flash medium Rilis: 2025-06-17
Skor	6.2	8.2
Peringkat	#60	#15
Konsistensi	7.7	9.5
Tes benar
Tingkat lulus per percobaan	55.6%	75.9%
Tes tidak stabil	5	1
Total Run	54	54
Biaya per hasil	0.200	2.454
Total Biaya	$0.016	$0.319
Harga input	$0.250 / 1M	$0.300 / 1M
Harga output	$2.000 / 1M	$2.500 / 1M
Token output	3,129	1,898
Token penalaran	0	122,273
Waktu respons (rata-rata)	2.53s	12.12s
Waktu respons (maks)	6.70s	95.48s
Waktu respons (total)	45.46s	218.12s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
Gemini 2.5 Flash	8.4	10.0	75.0%	0		6.30s	255	10,233

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		4.61s	380	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		16.23s	522	10,350

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.94s	126	2,499

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140

Perbandingan Cepat

Ganti Pasangan Perbandingan

Seed-2.0-LitenonevsGPT-5 Nanomedium Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Seed-2.0-Litenonevsgpt-oss-120bmediumTersedia gratis Seed-2.0-LitenonevsMercury 2medium Seed-2.0-LitenonevsMiniMax M2.5mediumTersedia gratis Seed-2.0-LitenonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsMistral Small 4medium Seed-2.0-LitenonevsNemotron 3 SupermediumTersedia gratis Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Seed-2.0-LitenonevsGrok 4.20medium Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium Seed-2.0-LitenonevsKimi K2.5medium