#112

DeepSeek V4 Pro

DeepSeek Rilis: 2026-04-24 Diuji pada: 2026-04-24 09:19 deepseek/deepseek-v4-pro::none

(high) (none)

Ringkasan

DeepSeek V4 Pro mendapat skor 3.1 di AI BENCHY dan berada di peringkat #112. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 11.1%, total biaya $0.009, dan waktu respons rata-rata 44.40s.

Yang membuat DeepSeek V4 Pro unik: Total biaya benchmark-nya sangat rendah untuk kisaran skornya.

Skor

3.1

Konsistensi

7.2

Keandalan

T/A

Total biaya (harga saat ini)

$0.009

Total token output

591

Total token input

Harga input

$1.740 / 1M

Harga output

$3.480 / 1M

Tes benar

Tes Salah: 18

Tingkat lulus per percobaan: 11.1%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

44.40s

Waktu respons (maks): 125.71s

Waktu respons (total): 577.18s

Kesalahan API: 16 Tidak mengikuti instruksi: 1 Jawaban salah: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#112 DeepSeek V4 Pro

none

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-07-16 23:18 Tes baru ditambahkan	6.9	10.0	$0.096	Bandingkan
2026-06-16 15:17 Uji ulang	7.2	9.9	$0.034	Bandingkan
2026-06-16 14:39 Suite berubah	7.2	9.9	$0.030	Bandingkan
2026-06-04 14:24 Tes baru ditambahkan	5.7	8.5	$0.025 ↓	Bandingkan
2026-05-22 00:38 Suite berubah	6.0	8.1	$0.046	Bandingkan
2026-04-29 14:46 Uji ulang	6.2	7.9	$0.043	Bandingkan
2026-04-24 09:19 Run awal	3.1	T/A	$0.009	Run saat ini

Perbandingan run

Run	Skor	Konsistensi	Keandalan	Tes benar	Tes tidak stabil	Total token output	Total Biaya	Waktu respons (rata-rata)
2026-04-24 09:19 · Run awal	3.1	7.2	T/A	0/18	6	591	$0.009	44.40s
2026-04-29 14:46 · Uji ulang	6.2	8.7	7.9	7/18	3	3,903	$0.043	14.01s
Selisih	-3.1	-1.5		-7	+3	-3312	-$0.034	+30391ms

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

DeepSeek V4 PrononevsKAT-Coder-Pro V2.5medium DeepSeek V4 PrononevsGPT-5.6 Solnone DeepSeek V4 PrononevsSeed-2.0-Minimedium DeepSeek V4 PrononevsMiMo-V2.5-Promedium DeepSeek V4 PrononevsGemini 3.5 Flashnone DeepSeek V4 PrononevsQwen3.6 Flashmedium DeepSeek V4 PrononevsMercury 2medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsKimi K2.5medium DeepSeek V4 PrononevsGPT-5.5none

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	3.1	10.0
Pemrograman	2.8	1.6
Gabungan	3.0	10.0
Parsing dan ekstraksi data	2.8	1.6
Spesifik domain	3.0	10.0
Kecerdasan umum	3.4	9.6
Kepatuhan instruksi	3.3	6.1
Pemecahan teka-teki	3.6	4.3
Pemanggilan alat	3.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#112 DeepSeek V4 Pro

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan