AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.5

Ringkasan

Perbandingan benchmark Claude Opus 4.7 vs GPT-5.5: GPT-5.5 unggul dalam skor rata-rata dengan 9.0 vs 7.4. Claude Opus 4.7 memiliki biaya benchmark lebih rendah di $0.505 vs $3.679. Claude Opus 4.7 lebih cepat di 3.02s vs 37.98s, dengan tingkat keberhasilan 76.2% vs 87.3%.

Model yang direkomendasikan: Claude Opus 4.7 - It offers the best overall trade-off: a competitive score (7.4), lower cost than GPT-5.5, and balanced response time.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	Claude Opus 4.7 Claude Opus 4.7 none Rilis: 2026-04-16	GPT-5.5 GPT-5.5 medium Rilis: 2026-04-24

Metrik	Claude Opus 4.7 Claude Opus 4.7 none Rilis: 2026-04-16	GPT-5.5 GPT-5.5 medium Rilis: 2026-04-24
Skor	7.4	9.0
Peringkat	#49	#9
Keandalan	10.0	10.0
Konsistensi	9.0	8.9
Tes benar
Tingkat lulus per percobaan	76.2%	87.3%
Tes tidak stabil	0	3
Total Run	57	63
Biaya per hasil	3.154	21.638
Total Biaya	$0.505	$3.679
Harga input	$5.000 / 1M	$5.000 / 1M
Harga output	$25.000 / 1M	$30.000 / 1M
Total token input	69,576	34,212
Token output	6,265	1,985
Token penalaran	0	114,925
Waktu respons (rata-rata)	3.02s	37.98s
Waktu respons (maks)	18.27s	332.10s
Waktu respons (total)	57.44s	797.60s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 Claude Opus 4.7

none

Biaya: $0.051
Waktu: 24.2s
Token: 2,181 tok

#9 GPT-5.5

medium

Biaya: $0.112
Waktu: 71.9s
Token: 3,807 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	894	522	0
GPT-5.5	10.0	10.0	100.0%	0		4.66s	606	250	1,335

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	3.3	3.3	33.3%	0		2.84s	1,176	494	0
GPT-5.5	8.8	7.8	88.9%	1		59.77s	7,305	362	24,959

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	37,740	3,504	0
GPT-5.5	10.0	10.0	100.0%	0		19.29s	11,019	312	2,841

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	10,533	324	0
GPT-5.5	10.0	10.0	100.0%	0		4.18s	7,140	234	593

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	1,020	78	0
GPT-5.5	5.3	7.2	44.4%	1		164.14s	723	67	79,625

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	723	257	0
GPT-5.5	10.0	10.0	100.0%	0		4.16s	477	138	223

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	939	114	0
GPT-5.5	10.0	10.0	100.0%	0		3.36s	660	93	538

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.46s	939	597	0
GPT-5.5	10.0	10.0	100.0%	0		6.76s	642	241	2,225

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	15,339	372	0
GPT-5.5	10.0	10.0	100.0%	0		10.57s	5,445	258	832

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	3.0	10.0	0.0%	0		1.46s	273	3	0
GPT-5.5	2.8	1.6	33.3%	1		37.86s	195	30	1,754

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3.5 FlashlowvsGPT-5.5medium DeepSeek V4 FlashhighvsGPT-5.5medium Gemini 3.5 FlashhighvsGPT-5.5medium GPT-5.5mediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsGPT-5.5medium Gemini 3 Flash PreviewlowvsGPT-5.5medium Claude Sonnet 4.6nonevsGPT-5.5medium Claude Opus 4.8nonevsGPT-5.5medium DeepSeek V4 PrononevsGPT-5.5medium GPT-5.5mediumvsQwen3.7 Plusnone GPT-5.5mediumvsGLM 5.2none GPT-5.5mediumvsStep 3.7 Flashhigh