AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs MoonshotAI: Kimi K2.5

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-16

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27
Skor	6.1	7.0
Peringkat	#63	#45
Konsistensi	8.1	6.8
Tes benar
Tingkat lulus per percobaan	50.0%	72.2%
Tes tidak stabil	4	7
Total Run	54	54
Biaya per hasil	0.226	2.444
Total Biaya	$0.016	$0.220
Harga input	$0.260 / 1M	$0.383 / 1M
Harga output	$0.380 / 1M	$1.720 / 1M
Token output	8,384	42,176
Token penalaran	0	84,870
Waktu respons (rata-rata)	12.09s	72.43s
Waktu respons (maks)	115.89s	150.77s
Waktu respons (total)	217.56s	796.70s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.2	9.8	0.0%	0		7.63s	1,419	0
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	2.4	1.3	33.3%	1		7.63s	553	0
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.6	7.2	22.2%	1		1.61s	24	0
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		2.86s	67	0
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	8.5	7.5	88.9%	1		7.37s	1,136	0
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemma 4 31BnoneTersedia gratisvsKimi K2.5medium DeepSeek V3.2nonevsGPT-5 Nanomedium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none DeepSeek V3.2nonevsgpt-oss-120bmediumTersedia gratis Kimi K2.5mediumvsGLM 5none DeepSeek V3.2nonevsMercury 2medium Claude Sonnet 4.6nonevsKimi K2.5medium DeepSeek V3.2nonevsMiniMax M2.5mediumTersedia gratis DeepSeek V3.2nonevsMistral Small 4medium Kimi K2.5mediumvsMiMo-V2-Omninone DeepSeek V3.2nonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsNemotron 3 SupermediumTersedia gratis