AI BENCHY
Bandingkan
❤️ Made by XCS

Nama Model

Anthropic: Claude Sonnet 4.6

Benchmark dihasilkan dari suite pengujian Aibenchy pada : 19 Feb 2026

Metrik Anthropic: Claude Sonnet 4.6
Peringkat#13
PerusahaanAnthropic
Score 5.75
Konsistensi 9.42
Biaya per hasil 0.9480
Total Biaya $0.05688
Tes benar 6/12
Tingkat lulus per percobaan 52.8%
Tes tidak stabil 1
Token output 1,659
Token penalaran 0

Rincian Kategori

Kategori Tes lulus penuh Score Konsistensi Tingkat lulus per percobaan Tes tidak stabil Skor penalaran Biaya
Anti-AI Tricks 0/2 1.00 10.00 0.0% 0 - $0.01092
Data parsing and extraction 2/2 10.00 10.00 100.0% 0 - $0.02854
Domain specific 2/3 7.00 10.00 66.7% 0 - $0.00309
Instructions following 1/2 5.50 10.00 50.0% 0 - $0.00342
Puzzle Solving 1/3 5.00 7.68 44.4% 1 - $0.01092

Model yang Dibandingkan

Bandingkan Anthropic: Claude Sonnet 4.6 dengan...

#12 · OpenAI

OpenAI: gpt-oss-120b

Penalaran (medium)

Score: 5.75

Konsistensi: 7.19

Tingkat lulus per percobaan: 63.9%

Tes tidak stabil: 4

Biaya per hasil: 0.0951

Tes benar: 6/12

Total Biaya: $0.00571

Bandingkan

#14 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

Tanpa penalaran

Score: 5.67

Konsistensi: 9.99

Tingkat lulus per percobaan: 50.0%

Tes tidak stabil: 0

Biaya per hasil: 0.0997

Tes benar: 6/12

Total Biaya: $0.00599

Bandingkan

#11 · OpenAI

OpenAI: GPT-5 Nano

Penalaran (medium)

Score: 5.92

Konsistensi: 6.03

Tingkat lulus per percobaan: 72.2%

Tes tidak stabil: 6

Biaya per hasil: 0.4675

Tes benar: 6/12

Total Biaya: $0.02806

Bandingkan

Perbandingan Cepat

Bandingkan Anthropic: Claude Sonnet 4.6 dengan...