AI BENCHY Compare

Z.ai: GLM 4.7 Flash vs GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-02

Metrik	GLM 4.7 Flash GLM 4.7 Flash medium Rilis: 2026-01-19	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Rilis: Tanggal rilis tidak diketahui

Metrik	GLM 4.7 Flash GLM 4.7 Flash medium Rilis: 2026-01-19	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Rilis: Tanggal rilis tidak diketahui
Skor	4.7	3.0
Peringkat	#82	#88
Konsistensi	6.6	10.0
Tes benar
Tingkat lulus per percobaan	39.2%	0.0%
Tes tidak stabil	7	0
Total Run	51	48
Biaya per hasil	1.046	0.000
Total Biaya	$0.042	$0.000
Harga input	$0.060 / 1M	$0.000 / 1M
Harga output	$0.400 / 1M	$0.000 / 1M
Token output	38,719	0
Token penalaran	65,465	0
Waktu respons (rata-rata)	33.44s	0ms
Waktu respons (maks)	174.55s	0ms
Waktu respons (total)	334.39s	0ms

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	1,122	6,110
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	2,585	20,648
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	584	2,755
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	33,000	25,394
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	18	2,138
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	388	2,181
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.90s	798	5,225
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium Grok 4.1 FastnonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Qwen3 Coder NextnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Nemotron 3 SupernoneTersedia gratisvsGLM 4.7 Flashmedium Mistral Small 4nonevsGLM 4.7 Flashmedium Trinity Large PreviewnoneTersedia gratisvsGLM 4.7 Flashmedium Kimi K2.5nonevsGLM 4.7 Flashmedium