AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Qwen: Qwen3.5-Flash

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-01

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	Qwen3.5-Flash Qwen3.5-Flash none Rilis: 2026-02-24

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Rilis: 2025-12-01	Qwen3.5-Flash Qwen3.5-Flash none Rilis: 2026-02-24
Skor	5.6	5.9
Peringkat	#120	#104
Keandalan	10.0	10.0
Konsistensi	8.3	9.7
Tes benar
Tingkat lulus per percobaan	41.7%	41.7%
Tes tidak stabil	6	1
Total Run	60	60
Biaya per hasil	0.222	0.073
Total Biaya	$0.018	$0.004
Harga input	$0.252 / 1M	$0.065 / 1M
Harga output	$0.378 / 1M	$0.260 / 1M
Token output	11,159	4,270
Token penalaran	0	0
Waktu respons (rata-rata)	14.43s	3.74s
Waktu respons (maks)	115.89s	27.18s
Waktu respons (total)	288.55s	74.71s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.2	8.2	8.3%	1		9.35s	1,073	0
Qwen3.5-Flash	3.5	8.3	8.3%	1		1.32s	690	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.1	5.4	16.7%	1		20.87s	4,522	0
Qwen3.5-Flash	6.8	10.0	50.0%	0		993ms	513	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
Qwen3.5-Flash	3.0	10.0	0.0%	0		6.22s	1,794	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		1.57s	243	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	2.9	6.9	11.1%	1		4.17s	21	0
Qwen3.5-Flash	7.7	10.0	66.7%	0		905ms	15	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	6.8	10.0	66.7%	1		9.32s	43	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	100	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
Qwen3.5-Flash	6.3	10.0	50.0%	0		8.81s	63	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	8.3	10.0	77.8%	1		6.91s	298	0
Qwen3.5-Flash	3.1	10.0	0.0%	0		10.89s	579	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	17	0
Qwen3.5-Flash	3.0	10.0	0.0%	0		588ms	9	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

gpt-oss-120bmediumTersedia gratisvsQwen3.5-Flashnone Nemotron 3 SupermediumTersedia gratisvsQwen3.5-Flashnone Owl AlphamediumvsQwen3.5-Flashnone DeepSeek V3.2nonevsMiniMax M2.5medium DeepSeek V3.2nonevsMistral Small 4medium CobuddymediumvsQwen3.5-Flashnone GPT-5 NanomediumvsQwen3.5-Flashnone CobuddymediumvsDeepSeek V3.2none DeepSeek V3.2nonevsElephant Alphamedium DeepSeek V3.2nonevsMiniMax M2.7medium DeepSeek V3.2nonevsOwl Alphamedium DeepSeek V3.2nonevsgpt-oss-120bmediumTersedia gratis