AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs OpenAI: GPT-5.4 Mini

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-01

Metrik	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19	GPT-5.4 Mini GPT-5.4 Mini medium Rilis: 2026-03-17

Metrik	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19	GPT-5.4 Mini GPT-5.4 Mini medium Rilis: 2026-03-17
Skor	9.6	7.3
Peringkat	#2	#58
Keandalan	T/A	T/A
Konsistensi	10.0	7.4
Tes benar
Tingkat lulus per percobaan	94.4%	70.4%
Tes tidak stabil	0	6
Total Run	54	54
Biaya per hasil	3.400	3.313
Total Biaya	$0.578	$0.299
Harga input	$2.000 / 1M	$0.750 / 1M
Harga output	$12.000 / 1M	$4.500 / 1M
Token output	1,932	2,131
Token penalaran	40,542	59,567
Waktu respons (rata-rata)	15.96s	15.22s
Waktu respons (maks)	40.61s	102.91s
Waktu respons (total)	175.52s	273.90s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
GPT-5.4 Mini	10.0	10.0	100.0%	0		7.76s	423	1,548

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
GPT-5.4 Mini	7.4	6.7	66.7%	1		2.50s	129	1,337

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Perbandingan Cepat

Ganti Pasangan Perbandingan

Claude Sonnet 4.6nonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsQwen3.6 Max Previewnone DeepSeek V4 ProhighvsGPT-5.4 Minimedium Gemma 4 31BnoneTersedia gratisvsGPT-5.4 Minimedium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Pro PreviewmediumvsGPT-5.5low DeepSeek V4 FlashhighvsGPT-5.4 Minimedium GPT-5.4 MinimediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsMiMo-V2-Omninone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4 Minimedium