AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs DeepSeek: DeepSeek V3.2

Ringkasan

Claude Opus 4.8 unggul dalam skor rata-rata dengan 7.3 vs 7.0. DeepSeek V3.2 (medium) memiliki biaya benchmark lebih rendah di $0.078 vs $1.166. Claude Opus 4.8 lebih cepat di 4.91s vs 68.62s, dengan tingkat keberhasilan 63.6% vs 65.2%.

Model yang direkomendasikanDeepSeek V3.2 (medium)Its score stays close to the best score here (7.0 vs 7.3), while costing about 15.1x less than Claude Opus 4.8.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-17

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	DeepSeek V3.2 DeepSeek V3.2 medium Rilis: 2025-12-01
Skor	7.3	7.0
Peringkat	#63	#73
Keandalan	10.0	10.0
Konsistensi	9.2	7.4
Tes benar
Tingkat lulus per percobaan	63.6%	65.2%
Tes tidak stabil	2	7
Total Run	66	66
Biaya per hasil	8.969	0.671
Total Biaya	$1.166	$0.078
Harga input	$5.000 / 1M	$0.269 / 1M
Harga output	$25.000 / 1M	$0.400 / 1M
Total token input	149,206	101,047
Token output	16,797	11,834
Token penalaran	0	117,014
Waktu respons (rata-rata)	4.91s	68.62s
Waktu respons (maks)	35.03s	376.10s
Waktu respons (total)	108.03s	1509.53s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Claude Opus 4.8

none

Biaya: $0.053
Waktu: 22.0s
Token: 2,253 tok

#73 DeepSeek V3.2

medium

Biaya: $0.001
Waktu: 53.6s
Token: 1,932 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori:

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
DeepSeek V3.2	8.2	7.9	83.3%	1		24.23s	448	3,247	6,953

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
DeepSeek V3.2	6.0	7.2	55.6%	1		248.68s	5,717	649	52,014

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
DeepSeek V3.2	7.3	5.8	83.3%	1		79.92s	76,997	5,219	24,229

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	7,388	207	7,693

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
DeepSeek V3.2	2.9	4.4	22.2%	2		24.27s	472	21	6,838

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
DeepSeek V3.2	3.4	2.5	33.3%	1		58.29s	314	49	2,189

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	627	1,397	2,845

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
DeepSeek V3.2	7.0	7.2	55.6%	1		37.69s	594	518	6,375

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	8,307	507	859

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
DeepSeek V3.2	3.0	10.0	0.0%	0		83.99s	183	20	7,019

Perbandingan Cepat

Ganti Pasangan Perbandingan