AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs xAI: Grok Build 0.1

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-22

Metrik	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01	Grok Build 0.1 Grok Build 0.1 none Rilis: 2026-05-21

Metrik	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01	Grok Build 0.1 Grok Build 0.1 none Rilis: 2026-05-21
Skor	7.0	6.6
Peringkat	#71	#82
Keandalan	9.1	10.0
Konsistensi	7.6	8.0
Tes benar
Tingkat lulus per percobaan	69.2%	60.4%
Tes tidak stabil	6	4
Total Run	60	57
Biaya per hasil	0.334	7.805
Total Biaya	$0.037	$0.547
Harga input	$0.252 / 1M	$1.000 / 1M
Harga output	$0.378 / 1M	$2.000 / 1M
Token output	7,049	267,275
Token penalaran	68,203	0
Waktu respons (rata-rata)	53.21s	28.69s
Waktu respons (maks)	189.03s	138.35s
Waktu respons (total)	1064.26s	459.00s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	9.2	10.0	100.0%	0		24.23s	3,247	6,953
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.9	5.8	33.3%	1		184.97s	640	21,230
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	2.9	4.4	22.2%	2		24.27s	21	6,838
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.8	2.5	50.0%	1		58.29s	49	2,189
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.7	5.0	66.7%	2		36.87s	390	6,281
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.0	10.0	0.0%	0		83.99s	20	7,019
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Qwen3.6 27BmediumvsGrok Build 0.1none DeepSeek V4 ProhighvsGrok Build 0.1none Claude Sonnet 4.6nonevsDeepSeek V3.2medium Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none DeepSeek V3.2mediumvsQwen3.6 Max Previewnone DeepSeek V3.2mediumvsRing-2.6-1Tnone DeepSeek V3.2mediumvsGemma 4 31BnoneTersedia gratis DeepSeek V3.2mediumvsGemini 3.1 Flash Liteminimal GPT-5 MinimediumvsGrok Build 0.1none Grok Build 0.1nonevsMiMo-V2-Omnimedium Mercury 2mediumvsGrok Build 0.1none