AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5 Mini

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-28

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	GPT-5 Mini GPT-5 Mini medium Rilis: 2025-08-07

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	GPT-5 Mini GPT-5 Mini medium Rilis: 2025-08-07
Skor	7.3	7.2
Peringkat	#63	#70
Keandalan	10.0	10.0
Konsistensi	9.2	9.1
Tes benar
Tingkat lulus per percobaan	65.0%	61.7%
Tes tidak stabil	2	2
Total Run	60	60
Biaya per hasil	4.324	1.348
Total Biaya	$0.519	$0.149
Harga input	$5.000 / 1M	$0.250 / 1M
Harga output	$25.000 / 1M	$2.000 / 1M
Token output	8,098	6,723
Token penalaran	0	63,082
Waktu respons (rata-rata)	3.51s	23.75s
Waktu respons (maks)	17.73s	88.15s
Waktu respons (total)	70.19s	475.03s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	1,715	6,378

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
GPT-5 Mini	10.0	10.0	100.0%	0		30.74s	580	12,544

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	453	3,200

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	293	14,016

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	349	1,856

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
GPT-5 Mini	10.0	10.0	100.0%	0		11.59s	310	3,968

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
GPT-5 Mini	5.6	9.8	33.3%	0		15.20s	1,622	6,144

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
GPT-5 Mini	3.0	10.0	0.0%	0		9.99s	160	1,856

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Ring-2.6-1TnonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.6 Max Previewnone Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsKimi K2.6mediumTersedia gratis Claude Opus 4.8nonevsMiMo-V2.5medium Claude Sonnet 4.6nonevsGPT-5 Minimedium