AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs OpenAI: GPT-5 Mini

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-01

Metrik	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01	GPT-5 Mini GPT-5 Mini medium Rilis: 2025-08-07

Metrik	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01	GPT-5 Mini GPT-5 Mini medium Rilis: 2025-08-07
Skor	6.9	7.2
Peringkat	#81	#73
Keandalan	10.0	10.0
Konsistensi	7.9	9.1
Tes benar
Tingkat lulus per percobaan	63.3%	61.7%
Tes tidak stabil	6	2
Total Run	60	60
Biaya per hasil	0.335	1.348
Total Biaya	$0.037	$0.149
Harga input	$0.252 / 1M	$0.250 / 1M
Harga output	$0.378 / 1M	$2.000 / 1M
Token output	7,177	6,723
Token penalaran	68,297	63,082
Waktu respons (rata-rata)	53.34s	23.75s
Waktu respons (maks)	189.03s	88.15s
Waktu respons (total)	1066.71s	475.03s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	8.7	10.0	83.3%	1		24.23s	3,247	6,953
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	1,715	6,378

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.9	5.8	33.3%	1		184.97s	640	21,230
GPT-5 Mini	10.0	10.0	100.0%	0		30.74s	580	12,544

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	453	3,200

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	2.9	4.4	22.2%	2		24.27s	21	6,838
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	293	14,016

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.4	2.5	33.3%	1		58.29s	49	2,189
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	349	1,856

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845
GPT-5 Mini	10.0	10.0	100.0%	0		11.59s	310	3,968

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	7.0	7.2	55.6%	1		37.69s	518	6,375
GPT-5 Mini	5.6	9.8	33.3%	0		15.20s	1,622	6,144

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
DeepSeek V3.2	3.0	10.0	0.0%	0		83.99s	20	7,019
GPT-5 Mini	3.0	10.0	0.0%	0		9.99s	160	1,856

Perbandingan Cepat

Ganti Pasangan Perbandingan

GPT-5 MinimediumvsStep 3.7 Flashhigh Ring-2.6-1TnonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.6 Max Previewnone Claude Opus 4.8nonevsGPT-5 Minimedium Claude Sonnet 4.6nonevsDeepSeek V3.2medium Claude Sonnet 4.6nonevsGPT-5 Minimedium DeepSeek V3.2mediumvsQwen3.6 Max Previewnone DeepSeek V3.2mediumvsGemma 4 31BnoneTersedia gratis GPT-5 MinimediumvsStep 3.7 Flashlow DeepSeek V3.2mediumvsStep 3.7 Flashhigh DeepSeek V3.2mediumvsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LitelowvsGPT-5 Minimedium