AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs MoonshotAI: Kimi K2.5

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-26

Metrik	Seed-2.0-Lite Seed-2.0-Lite none Rilis: 2026-02-14	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27

Metrik	Seed-2.0-Lite Seed-2.0-Lite none Rilis: 2026-02-14	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27
Skor	6.2	7.0
Peringkat	#72	#54
Keandalan	T/A	T/A
Konsistensi	7.7	6.8
Tes benar
Tingkat lulus per percobaan	55.6%	72.2%
Tes tidak stabil	5	7
Total Run	54	54
Biaya per hasil	0.200	2.444
Total Biaya	$0.016	$0.220
Harga input	$0.250 / 1M	$0.440 / 1M
Harga output	$2.000 / 1M	$2.000 / 1M
Token output	3,129	42,176
Token penalaran	0	84,870
Waktu respons (rata-rata)	2.53s	72.43s
Waktu respons (maks)	6.70s	150.77s
Waktu respons (total)	45.46s	796.70s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		4.61s	380	0
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812

Perbandingan Cepat

Ganti Pasangan Perbandingan

Seed-2.0-LitenonevsGPT-5 Nanomedium Gemma 4 31BnoneTersedia gratisvsKimi K2.5medium DeepSeek V4 ProhighvsKimi K2.5medium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsGPT-5.5none Seed-2.0-Litenonevsgpt-oss-120bmediumTersedia gratis Seed-2.0-LitenonevsMercury 2medium DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Claude Sonnet 4.6nonevsKimi K2.5medium Seed-2.0-LitenonevsMiniMax M2.5mediumTersedia gratis Seed-2.0-LitenonevsGrok 4.1 Fastmedium