AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 3.1 Flash Lite

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-22

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none Rilis: 2026-05-08

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none Rilis: 2026-05-08
Skor	6.0	6.6
Peringkat	#95	#85
Keandalan	8.1	10.0
Konsistensi	8.9	8.5
Tes benar
Tingkat lulus per percobaan	48.3%	55.0%
Tes tidak stabil	3	4
Total Run	60	60
Biaya per hasil	0.564	0.135
Total Biaya	$0.046	$0.013
Harga input	$0.435 / 1M	$0.250 / 1M
Harga output	$0.870 / 1M	$1.500 / 1M
Token output	5,347	2,478
Token penalaran	0	0
Waktu respons (rata-rata)	13.48s	1.09s
Waktu respons (maks)	58.65s	2.97s
Waktu respons (total)	269.56s	21.79s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	3.5	8.0	16.7%	1		14.02s	704	0
Gemini 3.1 Flash Lite	7.5	8.4	66.7%	1		1.07s	639	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	5.4	6.8	33.3%	1		8.27s	527	0
Gemini 3.1 Flash Lite	6.8	10.0	50.0%	0		1.13s	660	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	9.5	10.0	100.0%	0		25.49s	1,911	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.73s	357	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	8.8	10.0	100.0%	0		30.54s	170	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		843ms	279	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.17s	18	0
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		762ms	15	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	4.3	9.9	0.0%	0		3.75s	132	0
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		992ms	63	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	6.3	10.0	50.0%	0		8.23s	64	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		859ms	72	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	7.6	7.2	77.8%	1		19.72s	175	0
Gemini 3.1 Flash Lite	6.3	4.8	66.7%	2		720ms	150	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		5.92s	219	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.97s	234	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V4 Pro	3.0	10.0	0.0%	0		15.59s	1,427	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		733ms	9	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium DeepSeek V4 PrononevsGPT-5 Nanomedium DeepSeek V4 ProhighvsGemini 3.1 Flash Litenone DeepSeek V4 PrononevsNemotron 3 SupermediumTersedia gratis Gemini 3.1 Flash LitenonevsKimi K2.5medium Gemini 3.1 Flash LitenonevsGrok 4.20medium DeepSeek V4 PrononevsOwl Alphamedium DeepSeek V4 PrononevsMercury 2medium CobuddymediumTersedia gratisvsDeepSeek V4 Pronone Gemini 3.1 Flash LitenonevsMercury 2medium Gemini 3.1 Flash LitenonevsGPT-5 Minimedium Gemini 3.1 Flash LitenonevsMiMo-V2-Omnimedium