AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Z.ai: GLM 4.7 Flash

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-22

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	GLM 4.7 Flash GLM 4.7 Flash none Rilis: 2026-01-19

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	GLM 4.7 Flash GLM 4.7 Flash none Rilis: 2026-01-19
Skor	5.6	5.6
Peringkat	#114	#109
Keandalan	10.0	10.0
Konsistensi	8.0	8.7
Tes benar
Tingkat lulus per percobaan	46.7%	38.3%
Tes tidak stabil	5	3
Total Run	60	60
Biaya per hasil	0.254	0.053
Total Biaya	$0.018	$0.004
Harga input	$0.252 / 1M	$0.060 / 1M
Harga output	$0.378 / 1M	$0.400 / 1M
Token output	11,163	2,516
Token penalaran	0	0
Waktu respons (rata-rata)	14.46s	2.98s
Waktu respons (maks)	115.89s	7.05s
Waktu respons (total)	289.21s	38.73s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.3	8.2	12.5%	1		9.35s	1,073	0
GLM 4.7 Flash	5.2	7.9	41.7%	1		5.51s	438	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.1	5.4	16.7%	1		20.87s	4,522	0
GLM 4.7 Flash	5.0	10.0	0.0%	0		3.35s	644	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		3.22s	704	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
GLM 4.7 Flash	7.3	5.8	83.3%	1		4.82s	196	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.0	6.9	16.7%	1		4.17s	21	0
GLM 4.7 Flash	7.7	10.0	66.7%	0		744ms	19	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	7.6	10.0	100.0%	0		9.32s	43	0
GLM 4.7 Flash	4.0	10.0	0.0%	0		1.59s	134	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
GLM 4.7 Flash	6.5	10.0	50.0%	0		888ms	62	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	7.5	7.7	88.9%	1		7.13s	302	0
GLM 4.7 Flash	6.4	10.0	33.3%	0		1.00s	98	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
GLM 4.7 Flash	2.8	1.6	33.3%	1		7.05s	212	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	17	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		692ms	9	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

DeepSeek V3.2nonevsgpt-oss-120bmediumTersedia gratis gpt-oss-120bmediumTersedia gratisvsGLM 4.7 Flashnone CobuddymediumTersedia gratisvsGLM 4.7 Flashnone DeepSeek V3.2nonevsMiniMax M2.5mediumTersedia gratis DeepSeek V3.2nonevsMistral Small 4medium CobuddymediumTersedia gratisvsDeepSeek V3.2none DeepSeek V3.2nonevsElephant Alphamedium MiniMax M2.5mediumTersedia gratisvsGLM 4.7 Flashnone Owl AlphamediumvsGLM 4.7 Flashnone Mistral Small 4mediumvsGLM 4.7 Flashnone Elephant AlphamediumvsGLM 4.7 Flashnone DeepSeek V3.2nonevsOwl Alphamedium