AI BENCHY Compare

OpenAI: GPT-5.4 vs xAI: Grok 4.3

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-22

Metrik	GPT-5.4 GPT-5.4 medium Rilis: 2026-03-05	Grok 4.3 Grok 4.3 medium Rilis: 2026-05-01

Metrik	GPT-5.4 GPT-5.4 medium Rilis: 2026-03-05	Grok 4.3 Grok 4.3 medium Rilis: 2026-05-01
Skor	7.9	7.8
Peringkat	#27	#31
Keandalan	10.0	10.0
Konsistensi	8.5	8.4
Tes benar
Tingkat lulus per percobaan	75.0%	75.0%
Tes tidak stabil	4	4
Total Run	60	60
Biaya per hasil	8.767	4.562
Total Biaya	$1.140	$0.593
Harga input	$2.500 / 1M	$1.250 / 1M
Harga output	$15.000 / 1M	$2.500 / 1M
Token output	2,222	1,485
Token penalaran	68,503	214,928
Waktu respons (rata-rata)	22.31s	49.23s
Waktu respons (maks)	100.41s	216.69s
Waktu respons (total)	446.15s	984.54s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	8.2	6.7	83.3%	1		54.98s	412	19,995
Grok 4.3	7.4	6.5	66.7%	1		55.26s	532	24,554

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GPT-5.4	3.0	10.0	0.0%	0		13.95s	30	1,821
Grok 4.3	3.0	10.0	0.0%	0		44.47s	14	12,986

Perbandingan Cepat

Ganti Pasangan Perbandingan

GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsGPT-5.4medium Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.5 FlashminimalvsGrok 4.3medium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash LitelowvsGrok 4.3medium GPT-5.3 ChatnonevsGrok 4.3medium