AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 3.1 Flash Lite Preview

Ringkasan

Perbandingan benchmark DeepSeek V4 Pro vs Gemini 3.1 Flash Lite Preview: DeepSeek V4 Pro unggul dalam skor rata-rata dengan 8.1 vs 7.8. Gemini 3.1 Flash Lite Preview memiliki biaya benchmark lebih rendah di $0.068 vs $0.098. Gemini 3.1 Flash Lite Preview lebih cepat di 3.96s vs 72.22s, dengan tingkat keberhasilan 66.7% vs 61.9%.

Model yang direkomendasikan: Gemini 3.1 Flash Lite Preview - Its score stays close to the best score here (7.8 vs 8.1), while responding about 18.3x faster than DeepSeek V4 Pro.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-12

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Rilis: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Rilis: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03
Skor	8.1	7.8
Peringkat	#30	#36
Keandalan	9.6	10.0
Konsistensi	7.8	10.0
Tes benar
Tingkat lulus per percobaan	66.7%	61.9%
Tes tidak stabil	6	0
Total Run	57	63
Biaya per hasil	0.978	0.523
Total Biaya	$0.098	$0.068
Harga input	$0.435 / 1M	$0.250 / 1M
Harga output	$0.870 / 1M	$1.500 / 1M
Total token input	35,122	37,786
Token output	6,315	2,210
Token penalaran	93,205	36,744
Waktu respons (rata-rata)	72.22s	3.96s
Waktu respons (maks)	437.44s	14.93s
Waktu respons (total)	1444.45s	83.06s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 DeepSeek V4 Pro

high

Cost: $0.023
Time: 257.6s
Tokens: 14,870 tok

#36 Gemini 3.1 Flash Lite Preview

medium

Cost: $0.003
Time: 5.2s
Tokens: 1,944 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.7	5.9	58.3%	2		25.70s	536	149	3,214
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	7.7	10.0	66.7%	0		308.19s	1,583	368	42,658
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		38.17s	14,060	454	5,836
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	13,403	327	7,347

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		25.03s	7,690	274	2,166
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.6	7.2	22.2%	1		130.09s	472	4,400	26,367
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		8.83s	471	115	1,013
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	7.8	6.6	83.3%	1		8.73s	627	66	2,726
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	6.9	4.9	77.8%	2		56.85s	591	178	2,563
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	9.8	10.0	100.0%	0		15.92s	8,909	295	701
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.0	10.0	0.0%	0		34.01s	183	16	5,961
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801

Perbandingan Cepat

Ganti Pasangan Perbandingan