AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Google: Gemini 3.5 Flash

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-01

Metrik	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01	Gemini 3.5 Flash Gemini 3.5 Flash low Rilis: 2026-05-19

Metrik	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01	Gemini 3.5 Flash Gemini 3.5 Flash low Rilis: 2026-05-19
Skor	6.9	9.3
Peringkat	#81	#3
Keandalan	10.0	10.0
Konsistensi	7.9	10.0
Tes benar
Tingkat lulus per percobaan	63.3%	90.0%
Tes tidak stabil	6	0
Total Run	60	60
Biaya per hasil	0.335	1.582
Total Biaya	$0.037	$0.285
Harga input	$0.252 / 1M	$1.500 / 1M
Harga output	$0.378 / 1M	$9.000 / 1M
Token output	7,177	2,027
Token penalaran	68,297	23,938
Waktu respons (rata-rata)	53.34s	2.98s
Waktu respons (maks)	189.03s	6.44s
Waktu respons (total)	1066.71s	59.59s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	8.7	10.0	83.3%	1		24.23s	3,247	6,953
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.52s	209	2,536

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.9	5.8	33.3%	1		184.97s	640	21,230
Gemini 3.5 Flash	6.8	10.0	50.0%	0		5.54s	452	6,839

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.44s	351	3,050

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.81s	279	1,164

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	2.9	4.4	22.2%	2		24.27s	21	6,838
Gemini 3.5 Flash	7.7	10.0	66.7%	0		3.39s	12	4,538

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.4	2.5	33.3%	1		58.29s	49	2,189
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.27s	119	916

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845
Gemini 3.5 Flash	9.9	10.0	100.0%	0		1.86s	71	1,652

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	7.0	7.2	55.6%	1		37.69s	518	6,375
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.35s	288	2,150

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.27s	234	403

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.0	10.0	0.0%	0		83.99s	20	7,019
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.88s	12	690

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Sonnet 4.6nonevsDeepSeek V3.2medium DeepSeek V3.2mediumvsQwen3.6 Max Previewnone DeepSeek V3.2mediumvsGemma 4 31BnoneTersedia gratis DeepSeek V3.2mediumvsStep 3.7 Flashhigh DeepSeek V3.2mediumvsGemini 3.1 Flash Liteminimal Gemini 3.5 FlashlowvsQwen3.7 Maxmedium DeepSeek V3.2mediumvsRing-2.6-1Tnone DeepSeek V3.2mediumvsGemini 3.1 Flash Litenone DeepSeek V3.2mediumvsGPT-5.5none Claude Opus 4.8nonevsDeepSeek V3.2medium Claude Opus 4.7mediumvsGemini 3.5 Flashlow DeepSeek V3.2mediumvsStep 3.7 Flashlow