#58

GPT-5.5

OpenAI Rilis: 2026-04-24 Diuji pada: 2026-04-24 19:59 openai/gpt-5.5::none

(medium) (low) (none)

Ringkasan

GPT-5.5 mendapat skor 6.8 di AI BENCHY dan berada di peringkat #58. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 61.1%, total biaya $0.195, dan waktu respons rata-rata 1.83s.

Yang membuat GPT-5.5 unik: Model ini paling menonjol di Pemrograman, dengan peringkat #1, sementara Kepatuhan instruksi adalah area terlemahnya di #17. Model ini terasa cepat dibandingkan model serupa.

Skor

6.8

Konsistensi

8.3

Keandalan

T/A

Total biaya (harga saat ini)

$0.195

Total token output

1,910

Total token input

Harga input

$5.000 / 1M

Harga output

$30.000 / 1M

Tes benar

Tes Salah: 9

Tingkat lulus per percobaan: 61.1%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

1.83s

Waktu respons (maks): 5.56s

Waktu respons (total): 32.86s

Jawaban salah: 8 Tidak mengikuti instruksi: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 GPT-5.5

none

Biaya: $0.090
Waktu: 54.3s
Token: 3,063 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-07-16 22:34 Tes baru ditambahkan	6.9	10.0	$0.544	Bandingkan
2026-06-04 13:46 Tes baru ditambahkan	6.4	10.0	$0.231	Bandingkan
2026-05-22 00:19 Suite berubah	6.5	10.0	$0.217	Bandingkan
2026-04-24 19:59 Run awal	6.8	T/A	$0.195	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

GPT-5.5nonevsStep 3.7 Flashhigh GPT-5.5nonevsGemini 3.5 Flashminimal GPT-5.5nonevsQwen3.6 Flashmedium GPT-5.5nonevsGemini 3 Flash Previewnone GPT-5.5nonevsMiMo-V2.5-Promedium GPT-5.5nonevsQwen3.6 35B A3Bmedium GPT-5.5nonevsGPT-5.6 Solnone GPT-5.5nonevsGemini 3.5 Flash-Litelow GPT-5.5nonevsDeepSeek V4 Pronone GPT-5.5nonevsLongCat 2.0low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	6.9	7.9
Pemrograman	10.0	10.0
Gabungan	3.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	2.9	7.2
Kecerdasan umum	10.0	10.0
Kepatuhan instruksi	6.2	5.8
Pemecahan teka-teki	6.7	7.9
Pemanggilan alat	10.0	10.0

GPT-5.5

Hamster playing table tennis

#58 GPT-5.5

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan