AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Elephant Alpha

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-01

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	Elephant Alpha Elephant Alpha medium Rilis: 2026-04-14

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	Elephant Alpha Elephant Alpha medium Rilis: 2026-04-14
Skor	5.6	5.4
Peringkat	#120	#128
Keandalan	10.0	T/A
Konsistensi	8.3	9.6
Tes benar
Tingkat lulus per percobaan	41.7%	33.3%
Tes tidak stabil	6	1
Total Run	60	60
Biaya per hasil	0.222	0.000
Total Biaya	$0.018	$0.000
Harga input	$0.252 / 1M	$0.000 / 1M
Harga output	$0.378 / 1M	$0.000 / 1M
Token output	11,159	2,596
Token penalaran	0	0
Waktu respons (rata-rata)	14.43s	1.27s
Waktu respons (maks)	115.89s	3.70s
Waktu respons (total)	288.55s	22.82s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.2	8.2	8.3%	1		9.35s	1,073	0
Elephant Alpha	6.6	10.0	50.0%	0		1.19s	815	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.1	5.4	16.7%	1		20.87s	4,522	0
Elephant Alpha	4.0	6.7	16.7%	1		1.30s	365	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
Elephant Alpha	3.0	10.0	0.0%	0		3.70s	562	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
Elephant Alpha	6.5	10.0	50.0%	0		979ms	246	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	2.9	6.9	11.1%	1		4.17s	21	0
Elephant Alpha	3.0	10.0	0.0%	0		925ms	24	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.8	10.0	66.7%	1		9.32s	43	0
Elephant Alpha	4.3	10.0	0.0%	0		920ms	105	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
Elephant Alpha	9.8	10.0	100.0%	0		987ms	82	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	8.3	10.0	77.8%	1		6.91s	298	0
Elephant Alpha	5.3	10.0	33.3%	0		868ms	166	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
Elephant Alpha	3.0	10.0	0.0%	0		2.83s	231	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	17	0
Elephant Alpha	0.0	0.0	0.0%	0		0ms	0	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Elephant AlphamediumvsQwen3.5-122B-A10Bnone Elephant AlphamediumvsGrok 4.20none gpt-oss-120bnoneTersedia gratisvsElephant Alphamedium Elephant AlphamediumvsGLM 5 Turbonone Kimi K2.5nonevsElephant Alphamedium Ling-2.6-flashnonevsElephant Alphamedium DeepSeek V3.2nonevsMiniMax M2.5medium Elephant AlphamediumvsQwen3.6 Flashnone DeepSeek V3.2nonevsMistral Small 4medium Kimi K2.6noneTersedia gratisvsElephant Alphamedium CobuddymediumvsDeepSeek V3.2none Elephant AlphamediumvsMiMo-V2.5-Pronone