#30

Claude Sonnet 4.6

Anthropic Rilis: 2026-02-17 Diuji pada: 2026-04-11 01:44 anthropic/claude-sonnet-4.6::medium

(medium) (none)

Ringkasan

Claude Sonnet 4.6 mendapat skor 8.0 di AI BENCHY dan berada di peringkat #30. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 74.1%, total biaya $1.161, dan waktu respons rata-rata 12.66s.

Yang membuat Claude Sonnet 4.6 unik: Model ini paling menonjol di Pemrograman, dengan peringkat #1, sementara Trik anti-AI adalah area terlemahnya di #17.

Skor

8.0

Konsistensi

9.5

Keandalan

T/A

Total biaya (harga saat ini)

$1.161

Total token output

68,852

Total token input

Harga input

$3.000 / 1M

Harga output

$15.000 / 1M

Tes benar

Tes Salah: 5

Tingkat lulus per percobaan: 74.1%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

12.66s

Waktu respons (maks): 46.35s

Waktu respons (total): 126.62s

Format tambahan: 2 Jawaban salah: 2 Kedaluwarsa: 1

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 4.6

medium

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-06-04 13:42 Tes baru ditambahkan	7.4	10.0	$1.418	Bandingkan
2026-05-22 00:14 Suite berubah	7.6	10.0	$1.330	Bandingkan
2026-04-11 01:44 Run pertama yang tercatat	8.0	T/A	$1.161	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Claude Sonnet 4.6mediumvsClaude Sonnet 5medium Claude Sonnet 4.6mediumvsQwen3.5-27Bmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewmedium Claude Sonnet 4.6mediumvsQwen3.5 Plus 2026-02-15medium Claude Sonnet 4.6mediumvsQwen3.5 Plus 2026-04-20medium Claude Sonnet 4.6mediumvsGemini 3.5 Flashhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewmedium Claude Sonnet 4.6mediumvsNemotron 3 Ultra 550b A55bmediumTersedia gratis Claude Sonnet 4.6mediumvsGPT-5.5low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	6.5	10.0
Pemrograman	10.0	10.0
Gabungan	10.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	2.9	7.2
Kecerdasan umum	10.0	10.0
Kepatuhan instruksi	10.0	10.0
Pemecahan teka-teki	10.0	10.0
Pemanggilan alat	10.0	10.0

Claude Sonnet 4.6

Hamster playing table tennis

#30 Claude Sonnet 4.6

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan