AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 2.5 Flash

Ringkasan

Perbandingan benchmark DeepSeek V4 Pro vs Gemini 2.5 Flash: Gemini 2.5 Flash unggul dalam skor rata-rata dengan 8.2 vs 8.1. DeepSeek V4 Pro memiliki biaya benchmark lebih rendah di $0.098 vs $0.379. Gemini 2.5 Flash lebih cepat di 15.49s vs 72.22s, dengan tingkat keberhasilan 66.7% vs 69.8%.

Model yang direkomendasikan: DeepSeek V4 Pro - Its score stays close to the best score here (8.1 vs 8.2), while costing about 3.9x less than Gemini 2.5 Flash.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-12

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Rilis: 2026-04-24	Gemini 2.5 Flash Gemini 2.5 Flash medium Rilis: 2025-06-17

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Rilis: 2026-04-24	Gemini 2.5 Flash Gemini 2.5 Flash medium Rilis: 2025-06-17
Skor	8.1	8.2
Peringkat	#30	#27
Keandalan	9.6	10.0
Konsistensi	7.8	9.6
Tes benar
Tingkat lulus per percobaan	66.7%	69.8%
Tes tidak stabil	6	1
Total Run	57	63
Biaya per hasil	0.978	2.701
Total Biaya	$0.098	$0.379
Harga input	$0.435 / 1M	$0.300 / 1M
Harga output	$0.870 / 1M	$2.500 / 1M
Total token input	35,122	34,476
Token output	6,315	1,930
Token penalaran	93,205	145,145
Waktu respons (rata-rata)	72.22s	15.49s
Waktu respons (maks)	437.44s	95.48s
Waktu respons (total)	1444.45s	325.39s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 DeepSeek V4 Pro

high

Cost: $0.023
Time: 257.6s
Tokens: 14,870 tok

#27 Gemini 2.5 Flash

medium

Invalid SVG

Cost: $0.000
Time: 274.0s
Tokens: 0 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.7	5.9	58.3%	2		25.70s	536	149	3,214
Gemini 2.5 Flash	8.4	10.0	75.0%	0		6.30s	492	255	10,233

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	7.7	10.0	66.7%	0		308.19s	1,583	368	42,658
Gemini 2.5 Flash	7.8	10.0	66.7%	0		41.01s	6,669	543	32,303

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		38.17s	14,060	454	5,836
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	12,522	303	11,922

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		25.03s	7,690	274	2,166
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	7,257	279	2,325

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.6	7.2	22.2%	1		130.09s	472	4,400	26,367
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	633	18	80,702

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		8.83s	471	115	1,013
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	486	92	1,899

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	7.8	6.6	83.3%	1		8.73s	627	66	2,726
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	615	69	1,203

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	6.9	4.9	77.8%	2		56.85s	591	178	2,563
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.18s	558	126	2,499

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	9.8	10.0	100.0%	0		15.92s	8,909	295	701
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	5,088	234	1,140

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.0	10.0	0.0%	0		34.01s	183	16	5,961
Gemini 2.5 Flash	3.0	10.0	0.0%	0		2.76s	156	11	919

Perbandingan Cepat

Ganti Pasangan Perbandingan