#42

Claude Opus 4.6

Anthropic Rilis: 2026-02-05 Diuji pada: 2026-04-11 01:44 anthropic/claude-opus-4.6::medium

Ringkasan

Claude Opus 4.6 mendapat skor 7.6 di AI BENCHY dan berada di peringkat #42. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 70.4%, total biaya $1.446, dan waktu respons rata-rata 21.08s.

Yang membuat Claude Opus 4.6 unik: Model ini paling menonjol di Pemrograman, dengan peringkat #1, sementara Trik anti-AI adalah area terlemahnya di #15.

Skor

7.6

Konsistensi

9.1

Keandalan

T/A

Total biaya (harga saat ini)

$1.446

Total token output

48,767

Total token input

Harga input

$5.000 / 1M

Harga output

$25.000 / 1M

Tes benar

Tes Salah: 6

Tingkat lulus per percobaan: 70.4%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

21.08s

Waktu respons (maks): 83.40s

Waktu respons (total): 231.84s

Format tambahan: 4 Jawaban salah: 2

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#42 Claude Opus 4.6

medium

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-06-04 13:45 Tes baru ditambahkan	7.0	10.0	$2.053	Bandingkan
2026-05-22 00:17 Suite berubah	7.2	10.0	$1.896	Bandingkan
2026-04-11 01:44 Run pertama yang tercatat	7.6	T/A	$1.446	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Claude Opus 4.6mediumvsClaude Opus 4.8low Claude Opus 4.6mediumvsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.6mediumvsKimi K2.6mediumTersedia gratis Claude Opus 4.6mediumvsMiniMax M3medium Claude Opus 4.6mediumvsGemini 3.5 Flashhigh Claude Opus 4.6mediumvsGemini 3 Flash Previewmedium Claude Opus 4.6mediumvsNemotron 3 Ultra 550b A55bmediumTersedia gratis Claude Opus 4.6mediumvsGPT-5.5low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	6.4	5.8
Pemrograman	10.0	10.0
Gabungan	10.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	3.0	10.0
Kecerdasan umum	10.0	10.0
Kepatuhan instruksi	10.0	10.0
Pemecahan teka-teki	7.7	10.0
Pemanggilan alat	10.0	10.0

Claude Opus 4.6

Hamster playing table tennis

#42 Claude Opus 4.6

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan