AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Z.ai: GLM 5

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-29

Metrik	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19	GLM 5 GLM 5 medium Rilis: 2026-02-12

Metrik	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19	GLM 5 GLM 5 medium Rilis: 2026-02-12
Skor	9.3	8.2
Peringkat	#4	#20
Keandalan	10.0	10.0
Konsistensi	10.0	8.4
Tes benar
Tingkat lulus per percobaan	90.0%	81.7%
Tes tidak stabil	0	4
Total Run	60	60
Biaya per hasil	5.587	1.676
Total Biaya	$1.006	$0.235
Harga input	$2.000 / 1M	$0.600 / 1M
Harga output	$12.000 / 1M	$1.920 / 1M
Token output	1,971	21,558
Token penalaran	75,384	95,772
Waktu respons (rata-rata)	20.77s	32.67s
Waktu respons (maks)	88.68s	99.85s
Waktu respons (total)	269.96s	392.01s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	7.0	9.8	50.0%	0		54.28s	429	37,735
GLM 5	10.0	10.0	100.0%	0		89.47s	2,985	45,706

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	235	3,128
GLM 5	10.0	10.0	100.0%	0		11.33s	33	4,076

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	12	1,297
GLM 5	3.0	10.0	0.0%	0		67.37s	401	12,450

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3.5 FlashminimalvsGLM 5medium Qwen3.7 MaxnonevsGLM 5medium GPT-5.2 ChatnonevsGLM 5medium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewlowvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium DeepSeek V4 FlashhighTersedia gratisvsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3.5 FlashnonevsGLM 5medium GPT-5.5lowvsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash LitelowvsGLM 5medium