AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Qwen: Qwen3.6 Flash

Ringkasan

Perbandingan benchmark DeepSeek V4 Pro vs Qwen3.6 Flash: Qwen3.6 Flash unggul dalam skor rata-rata dengan 7.5 vs 7.2. DeepSeek V4 Pro memiliki biaya benchmark lebih rendah di $0.034 vs $0.288. DeepSeek V4 Pro lebih cepat di 6.41s vs 19.25s, dengan tingkat keberhasilan 52.4% vs 71.4%.

Model yang direkomendasikan: DeepSeek V4 Pro - Its score stays close to the best score here (7.2 vs 7.5), while costing about 8.6x less than Qwen3.6 Flash.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Qwen3.6 Flash Qwen3.6 Flash medium Rilis: 2026-04-20

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Rilis: 2026-04-24	Qwen3.6 Flash Qwen3.6 Flash medium Rilis: 2026-04-20
Skor	7.2	7.5
Peringkat	#58	#47
Keandalan	9.9	10.0
Konsistensi	8.8	8.1
Tes benar
Tingkat lulus per percobaan	52.4%	71.4%
Tes tidak stabil	3	5
Total Run	63	63
Biaya per hasil	0.333	3.030
Total Biaya	$0.034	$0.288
Harga input	$0.435 / 1M	$0.188 / 1M
Harga output	$0.870 / 1M	$1.125 / 1M
Total token input	53,558	42,362
Token output	11,424	2,995
Token penalaran	0	245,358
Waktu respons (rata-rata)	6.41s	19.25s
Waktu respons (maks)	30.09s	122.87s
Waktu respons (total)	134.66s	404.20s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 DeepSeek V4 Pro

none

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

#47 Qwen3.6 Flash

medium

SVG tidak valid

Biaya: $0.008
Waktu: 29.9s
Token: 6,784 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		6.10s	672	624	14,024

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.6	10.0	33.3%	0		13.38s	7,275	5,500	0
Qwen3.6 Flash	5.0	5.1	44.5%	2		42.85s	7,895	495	67,967

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		20.28s	14,934	483	13,839

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		9.65s	7,782	270	13,155

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0
Qwen3.6 Flash	3.5	4.4	33.3%	2		14.65s	771	60	24,409

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0
Qwen3.6 Flash	4.8	9.9	0.0%	0		9.88s	516	140	5,445

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		6.05s	699	102	7,423

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0
Qwen3.6 Flash	8.2	7.2	88.9%	1		6.29s	696	460	10,860

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		4.00s	8,193	335	1,188

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0
Qwen3.6 Flash	3.0	10.0	0.0%	0		122.87s	204	26	87,048

Perbandingan Cepat

Ganti Pasangan Perbandingan

DeepSeek V4 PrononevsGemma 4 26B A4BmediumTersedia gratis GPT-5.3 ChatnonevsQwen3.6 Flashmedium Gemini 3 Flash PreviewlowvsQwen3.6 Flashmedium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsGLM 5.1medium DeepSeek V4 ProhighvsQwen3.6 Flashmedium Claude Sonnet 4.6nonevsQwen3.6 Flashmedium DeepSeek V4 PrononevsKimi K2.7 Codemedium DeepSeek V4 PrononevsGrok 4.20medium DeepSeek V4 PrononevsGemini 3 Flash Previewlow Qwen3.6 FlashmediumvsStep 3.7 Flashlow Claude Opus 4.8nonevsQwen3.6 Flashmedium