AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 3.1 Flash Lite Preview

Ringkasan

Perbandingan benchmark DeepSeek V4 Pro vs Gemini 3.1 Flash Lite Preview: Gemini 3.1 Flash Lite Preview unggul dalam skor rata-rata dengan 7.8 vs 7.2. DeepSeek V4 Pro memiliki biaya benchmark lebih rendah di $0.034 vs $0.068. Gemini 3.1 Flash Lite Preview lebih cepat di 3.96s vs 6.41s, dengan tingkat keberhasilan 52.4% vs 61.9%.

Model yang direkomendasikan: DeepSeek V4 Pro - Its score stays close to the best score here (7.2 vs 7.8), while costing about 2.0x less than Gemini 3.1 Flash Lite Preview.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03
Skor	7.2	7.8
Peringkat	#58	#32
Keandalan	9.9	10.0
Konsistensi	8.8	10.0
Tes benar
Tingkat lulus per percobaan	52.4%	61.9%
Tes tidak stabil	3	0
Total Run	63	63
Biaya per hasil	0.333	0.523
Total Biaya	$0.034	$0.068
Harga input	$0.435 / 1M	$0.250 / 1M
Harga output	$0.870 / 1M	$1.500 / 1M
Total token input	53,558	37,786
Token output	11,424	2,210
Token penalaran	0	36,744
Waktu respons (rata-rata)	6.41s	3.96s
Waktu respons (maks)	30.09s	14.93s
Waktu respons (total)	134.66s	83.06s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 DeepSeek V4 Pro

none

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

#32 Gemini 3.1 Flash Lite Preview

medium

Biaya: $0.003
Waktu: 5.2s
Token: 1,944 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.6	10.0	33.3%	0		13.38s	7,275	5,500	0
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	13,403	327	7,347

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801

Perbandingan Cepat

Ganti Pasangan Perbandingan

DeepSeek V4 PrononevsGemma 4 26B A4BmediumTersedia gratis Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsGLM 5.1medium DeepSeek V4 PrononevsKimi K2.7 Codemedium DeepSeek V4 PrononevsGrok 4.20medium DeepSeek V4 ProhighvsGemini 3.1 Flash Lite Previewmedium DeepSeek V4 PrononevsGemini 3 Flash Previewlow DeepSeek V4 PrononevsMiMo-V2.5-Promedium Seed-2.0-MinimediumvsDeepSeek V4 Pronone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone DeepSeek V4 PrononevsQwen3.6 Flashmedium