Model yang Dibandingkan

Perbandingan benchmark GLM 5 (medium) vs GLM 5.1 (medium) vs Kimi K2.5 (medium) vs Qwen3.6 Plus Preview (medium): GLM 5 (medium) unggul pada Skor dengan 7.7. GLM 5 (medium) unggul pada Keandalan dengan 10.0. Qwen3.6 Plus Preview (medium) memiliki Total Biaya terendah di $0.000. Qwen3.6 Plus Preview (medium) paling cepat di 15.25s.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-25

Peringkat: #49
Total token output: 124,566
Waktu respons (rata-rata): 33.54s
Total Biaya: $0.307

Peringkat: #82
Total token output: 152,552
Waktu respons (rata-rata): 46.77s
Total Biaya: $0.535

Peringkat: #85
Total token output: 227,367
Waktu respons (rata-rata): 99.00s
Total Biaya: $0.600

Peringkat: #190
Total token output: 63,350
Waktu respons (rata-rata): 15.25s
Total Biaya: $0.000

Model yang direkomendasikan GLM 5 (medium)

It has the best score here (7.7), while costing about 1.8x less than model lain dalam perbandingan ini.

Perbandingan terperinci

Metrik	GLM 5 GLM 5 medium Rilis: 2026-02-12	GLM 5.1 GLM 5.1 medium Rilis: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Rilis: 2026-04-20 Tersedia gratis

Metrik	GLM 5 GLM 5 medium Rilis: 2026-02-12	GLM 5.1 GLM 5.1 medium Rilis: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Rilis: 2026-04-20 Tersedia gratis
Skor	7.7	7.1	7.0	4.9
Peringkat	#49	#82	#85	#190
Keandalan	10.0	8.3	10.0	T/A
Konsistensi	8.1	8.4	7.0	8.6
Tes benar
Tingkat lulus per percobaan	78.8%	69.7%	65.2%	40.9%
Tes tidak stabil	4	4	8	0
Total Run	63	66	66	57
Biaya per hasil	1.668	4.202	4.789	0.000
Total Biaya	$0.307	$0.535	$0.600	$0.000
Harga input	$0.950 / 1M	$0.966 / 1M	$0.571 / 1M	$0.000 / 1M
Harga output	$2.551 / 1M	$3.036 / 1M	$2.850 / 1M	$0.000 / 1M
Total token input	35,224	82,623	118,448	32,639
Token output	21,570	16,089	62,124	1,153
Token penalaran	102,996	136,463	165,243	62,197
Waktu respons (rata-rata)	33.54s	46.77s	99.00s	15.25s
Waktu respons (maks)	99.85s	308.75s	281.00s	43.55s
Waktu respons (total)	435.99s	982.16s	1485.04s	182.96s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GLM 5

medium

Biaya: $0.005
Waktu: 20.7s
Token: 2,068 tok

#82 GLM 5.1

medium

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

#85 MoonshotAI: Kimi K2.5

medium

Biaya: $0.030
Waktu: 58.6s
Token: 8,683 tok

#190 Qwen3.6 Plus Preview

medium

Belum ada hasil showcase yang dihasilkan untuk model ini.

Biaya: $0.000
Waktu: -
Token: 0 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori:

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	10.0	10.0	100.0%	0	23.66s	555	480	7,056
GLM 5.1	10.0	10.0	100.0%	0	8.31s	555	401	5,122
Kimi K2.5	7.3	5.8	83.3%	2	51.38s	634	2,789	8,880
Qwen3.6 Plus Preview	8.3	10.0	75.0%	0	11.69s	501	61	5,812

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	10.0	10.0	100.0%	0	74.30s	7,254	2,997	52,930
GLM 5.1	4.6	3.7	44.5%	2	109.63s	5,702	4,871	37,826
Kimi K2.5	6.1	4.6	66.7%	2	217.49s	6,935	5,705	74,693
Qwen3.6 Plus Preview	9.8	3.3	0.0%	0	0ms	0	0	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	5.0	5.0	50.0%	28.96s	12,804	662	3,242
GLM 5.1	9.8	10.0	100.0%	175.93s	66,926	4,761	65,248
Kimi K2.5	6.7	9.1	50.0%	89.19s	95,416	14,448	11,209
Qwen3.6 Plus Preview	5.0	5.0	50.0%	34.95s	14,934	452	13,073

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	7.1	5.6	83.3%	1	8.90s	5,508	567	3,734
GLM 5.1	10.0	10.0	100.0%	0	9.33s	7,107	991	4,552
Kimi K2.5	10.0	10.0	100.0%	0	49.78s	7,020	563	7,940
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0	14.95s	7,782	270	10,706

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	3.5	4.4	33.3%	2	0ms	260	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0	29.77s	489	969	11,314
Kimi K2.5	3.5	4.4	33.3%	2	137.29s	485	20,753	30,564
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	22.08s	665	49	26,895

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	6.1	3.1	66.7%	1	14.69s	477	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0	20.95s	477	2,875	2,875
Kimi K2.5	6.5	3.4	66.7%	1	69.73s	480	3,815	4,262
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	0ms	0	0	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	10.0	10.0	100.0%	0	7.25s	636	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1	7.47s	634	204	1,617
Kimi K2.5	10.0	10.0	100.0%	0	92.47s	675	5,371	6,547
Qwen3.6 Plus Preview	6.5	10.0	50.0%	0	3.40s	381	27	1,383

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	10.0	10.0	100.0%	0	11.33s	609	33	4,076
GLM 5.1	8.2	7.2	88.9%	1	31.64s	609	935	5,730
Kimi K2.5	5.3	7.3	44.4%	1	43.23s	659	8,426	12,692
Qwen3.6 Plus Preview	5.3	10.0	33.3%	0	7.52s	183	27	2,998

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	10.0	10.0	100.0%	15.93s	6,935	233	994
GLM 5.1	3.0	10.0	0.0%	0ms	0	0	0
Kimi K2.5	10.0	10.0	100.0%	31.74s	5,933	242	812
Qwen3.6 Plus Preview	10.0	10.0	100.0%	5.87s	8,193	267	1,330

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
GLM 5	3.0	10.0	0.0%	67.37s	186	401	12,450
GLM 5.1	3.0	10.0	0.0%	29.40s	124	82	2,179
Kimi K2.5	3.0	10.0	0.0%	83.95s	211	12	7,644
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0ms	0	0	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3.5 FlashnonevsKimi K2.5medium GPT-5.6 LunahighvsGLM 5medium Claude Opus 4.8lowvsGLM 5medium Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 FlashhighvsGLM 5medium DeepSeek V4 ProhighvsGLM 5medium DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.6 Solnone KAT-Coder-Pro V2.5highvsGLM 5.1medium Step 3.7 FlashlowvsGLM 5.1medium Kimi K2.5mediumvsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsGLM 5.1medium