#70

Claude Opus 4.8

Anthropic Rilis: 2026-05-28 Diuji pada: 2026-06-30 22:01 anthropic/claude-opus-4.8::none

(medium) (low) (none)

Ringkasan

Claude Opus 4.8 mendapat skor 7.2 di AI BENCHY dan berada di peringkat #70. Model ini memiliki reliabilitas 10.0, tingkat keberhasilan 61.9%, total biaya $0.539, dan waktu respons rata-rata 3.48s.

Yang membuat Claude Opus 4.8 unik: Model ini paling menonjol di Kepatuhan instruksi, dengan peringkat #3, sementara Parsing dan ekstraksi data adalah area terlemahnya di #12. Model ini terasa cepat dibandingkan model serupa.

Skor

7.2

Konsistensi

9.2

Keandalan

10.0

Total biaya (harga saat ini)

$0.539

Total token output

8,107

Total token input

67,104

Harga input

$5.000 / 1M

Harga output

$25.000 / 1M

Tes benar

Tes Salah: 9

Tingkat lulus per percobaan: 61.9%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

3.48s

Waktu respons (maks): 17.73s

Waktu respons (total): 73.00s

Jawaban salah: 4 Format tambahan: 3 Tidak mengikuti instruksi: 1 Tidak ada jawaban: 1

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#70 Claude Opus 4.8

none

Biaya: $0.053
Waktu: 22.0s
Token: 2,253 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-06-30 22:01 Uji ulang	7.2	10.0	$0.539	Run saat ini
2026-06-04 13:44 Tes baru ditambahkan	7.0	10.0	$0.539	Bandingkan
2026-05-28 17:34 Run awal	7.3	10.0	$0.519	Bandingkan

Riwayat harga

Data harga historis untuk model ini dari OpenRouter.

Tanggal	Harga input	Harga output
2026-06-04 15:40	$5.000 / 1M	$25.000 / 1M

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsMiMo-V2.5-Promedium Claude Opus 4.8nonevsClaude Sonnet 4.6none Claude Opus 4.8nonevsSeed-2.0-Minimedium Claude Opus 4.8nonevsGemini 3.5 Flashhigh Claude Opus 4.8nonevsGemini 3 Flash Previewmedium Claude Opus 4.8nonevsNemotron 3 Ultra 550b A55bmediumTersedia gratis Claude Opus 4.8nonevsGPT-5.5low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	6.5	10.0
Pemrograman	5.5	10.0
Gabungan	9.5	10.0
Parsing dan ekstraksi data	7.3	5.8
Spesifik domain	5.3	7.2
Kecerdasan umum	10.0	10.0
Kepatuhan instruksi	9.9	10.0
Pemecahan teka-teki	7.7	10.0
Pemanggilan alat	10.0	10.0
Pengetahuan umum	3.0	10.0

Claude Opus 4.8

Hamster playing table tennis

#70 Claude Opus 4.8

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan