AI BENCHY Compare

DeepSeek: DeepSeek V4 Flash vs Qwen: Qwen3.5-27B

Ringkasan

Perbandingan benchmark DeepSeek V4 Flash vs Qwen3.5-27B: Skor rata-rata hampir imbang di 7.7 vs 7.8. DeepSeek V4 Flash memiliki biaya benchmark lebih rendah di $0.029 vs $0.536. DeepSeek V4 Flash lebih cepat di 45.85s vs 68.39s, dengan tingkat keberhasilan 74.6% vs 73.0%.

Model yang direkomendasikan: DeepSeek V4 Flash - It has the best score here (7.7), while costing about 18.8x less than Qwen3.5-27B.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-04

Metrik	DeepSeek V4 Flash DeepSeek V4 Flash high Rilis: 2026-04-24	Qwen3.5-27B Qwen3.5-27B medium Rilis: 2026-02-24

Metrik	DeepSeek V4 Flash DeepSeek V4 Flash high Rilis: 2026-04-24	Qwen3.5-27B Qwen3.5-27B medium Rilis: 2026-02-24
Skor	7.7	7.8
Peringkat	#31	#30
Keandalan	10.0	10.0
Konsistensi	8.5	8.5
Tes benar
Tingkat lulus per percobaan	74.6%	73.0%
Tes tidak stabil	4	4
Total Run	63	63
Biaya per hasil	0.299	4.901
Total Biaya	$0.029	$0.536
Harga input	$0.099 / 1M	$0.195 / 1M
Harga output	$0.197 / 1M	$1.560 / 1M
Total token input	39,745	42,164
Token output	10,310	8,534
Token penalaran	123,501	329,289
Waktu respons (rata-rata)	45.85s	68.39s
Waktu respons (maks)	218.13s	234.36s
Waktu respons (total)	962.79s	1436.24s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#31 DeepSeek V4 Flash

high

Cost: $0.003
Time: 93.1s
Tokens: 7,926 tok

#30 Qwen3.5-27B

medium

Cost: $0.008
Time: 62.0s
Tokens: 3,099 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	8.3	10.0	75.0%	0		28.51s	540	140	7,770
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	7.8	10.0	66.7%	0		50.60s	7,279	395	34,862
Qwen3.5-27B	6.2	7.1	55.6%	1		160.69s	7,895	6,381	89,388

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	10.0	10.0	100.0%	0		76.57s	14,016	465	7,347
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	14,946	483	9,991

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	10.0	10.0	100.0%	0		28.03s	7,290	201	1,179
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	4.1	4.4	44.5%	2		100.31s	666	27	59,249
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	6.1	3.1	66.7%	1		25.15s	471	79	632
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	10.0	10.0	100.0%	0		15.36s	627	63	1,622
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	8.2	7.2	88.9%	1		26.11s	594	196	1,767
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	10.0	10.0	100.0%	0		74.73s	8,079	228	542
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
DeepSeek V4 Flash	3.0	10.0	0.0%	0		54.46s	183	8,516	8,531
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

Perbandingan Cepat

Ganti Pasangan Perbandingan