AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Anthropic: Claude Opus 4.8

Ringkasan

Perbandingan benchmark Claude Opus 4.6 vs Claude Opus 4.8: Skor rata-rata hampir imbang di 7.7 vs 7.7. Claude Opus 4.8 memiliki biaya benchmark lebih rendah di $1.270 vs $2.053. Claude Opus 4.8 lebih cepat di 10.83s vs 25.89s, dengan tingkat keberhasilan 61.9% vs 79.4%.

Model yang direkomendasikan: Claude Opus 4.8 - It has the best score here (7.7), while costing about 1.6x less than Claude Opus 4.6.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-30

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	Claude Opus 4.8 Claude Opus 4.8 low Rilis: 2026-05-28

Metrik	Claude Opus 4.6 Claude Opus 4.6 medium Rilis: 2026-02-05	Claude Opus 4.8 Claude Opus 4.8 low Rilis: 2026-05-28
Skor	7.7	7.7
Peringkat	#40	#38
Keandalan	10.0	10.0
Konsistensi	8.8	8.8
Tes benar
Tingkat lulus per percobaan	61.9%	79.4%
Tes tidak stabil	3	3
Total Run	63	63
Biaya per hasil	17.103	8.466
Total Biaya	$2.053	$1.270
Harga input	$5.000 / 1M	$5.000 / 1M
Harga output	$25.000 / 1M	$25.000 / 1M
Total token input	53,227	60,946
Token output	47,446	31,771
Token penalaran	24,000	6,831
Waktu respons (rata-rata)	25.89s	10.83s
Waktu respons (maks)	83.40s	127.97s
Waktu respons (total)	362.49s	227.39s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

#38 Claude Opus 4.8

low

Biaya: $0.031
Waktu: 14.1s
Token: 1,345 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Opus 4.8lowvsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.8lowvsKimi K2.6mediumTersedia gratis Claude Opus 4.8lowvsGrok 4.3medium Claude Opus 4.8lowvsGemini 3.1 Flash Litemedium Claude Opus 4.8lowvsQwen3.5 Plus 2026-04-20medium Claude Opus 4.8lowvsGemini 3.1 Flash Lite Previewmedium Claude Opus 4.6mediumvsDeepSeek V4 Prohigh Claude Opus 4.8lowvsQwen3.6 Plusmedium Claude Opus 4.8lowvsMiniMax M3medium Claude Opus 4.8lowvsDeepSeek V4 Prohigh Claude Opus 4.8lowvsGrok Build 0.1medium