AI BENCHY Compare

OpenAI: GPT-5.5 vs HY3 Preview

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-26

Metrik	GPT-5.5 GPT-5.5 low Rilis: 2026-04-24	HY3 Preview HY3 Preview high Rilis: 2026-04-22 Tersedia gratis

Metrik	GPT-5.5 GPT-5.5 low Rilis: 2026-04-24	HY3 Preview HY3 Preview high Rilis: 2026-04-22 Tersedia gratis
Skor	9.0	8.5
Peringkat	#5	#11
Keandalan	10.0	T/A
Konsistensi	9.6	8.8
Tes benar
Tingkat lulus per percobaan	87.0%	81.5%
Tes tidak stabil	1	3
Total Run	54	50
Biaya per hasil	4.534	0.000
Total Biaya	$0.681	$0.000
Harga input	$5.000 / 1M	$0.000 / 1M
Harga output	$30.000 / 1M	$0.000 / 1M
Token output	1,959	238,920
Token penalaran	16,134	0
Waktu respons (rata-rata)	8.39s	55.19s
Waktu respons (maks)	56.19s	149.94s
Waktu respons (total)	151.01s	938.23s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	10.0	10.0	100.0%	0		4.15s	232	1,056
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	10.0	10.0	100.0%	0		7.79s	369	936
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	10.0	10.0	100.0%	0		9.56s	303	717
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	10.0	10.0	100.0%	0		3.28s	228	157
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	5.3	10.0	33.3%	0		27.57s	69	11,731
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	10.0	10.0	100.0%	0		3.45s	143	132
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	9.9	10.0	100.0%	0		2.98s	93	356
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	9.0	7.9	88.9%	1		4.48s	272	948
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.5	10.0	10.0	100.0%	0		4.96s	250	101
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Qwen3.5 Plus 2026-02-15mediumvsHY3 PreviewhighTersedia gratis Qwen3.6 Plus PreviewmediumTersedia gratisvsHY3 PreviewhighTersedia gratis Qwen3.5-27BmediumvsHY3 PreviewhighTersedia gratis GPT-5.3-CodexmediumvsHY3 PreviewhighTersedia gratis Gemini 3 PRO PreviewmediumvsHY3 PreviewhighTersedia gratis Seed-2.0-LitemediumvsHY3 PreviewhighTersedia gratis HY3 PreviewhighTersedia gratisvsGLM 5medium Claude Opus 4.7nonevsGPT-5.5low Gemma 4 31BmediumTersedia gratisvsHY3 PreviewhighTersedia gratis Claude Opus 4.7mediumvsGPT-5.5low Gemini 2.5 FlashmediumvsHY3 PreviewhighTersedia gratis GPT-5.4mediumvsHY3 PreviewhighTersedia gratis