AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Z.ai: GLM 5.2

Ringkasan

Perbandingan benchmark Claude Sonnet 4.6 vs GLM 5.2: Claude Sonnet 4.6 unggul dalam skor rata-rata dengan 7.8 vs 7.1. GLM 5.2 memiliki biaya benchmark lebih rendah di $0.051 vs $1.418. GLM 5.2 lebih cepat di 6.34s vs 17.06s, dengan tingkat keberhasilan 65.1% vs 60.3%.

Model yang direkomendasikan: GLM 5.2 - Its score stays close to the best score here (7.1 vs 7.8), while costing about 28.1x less than Claude Sonnet 4.6.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Rilis: 2026-02-17	GLM 5.2 GLM 5.2 none Rilis: 2026-06-17

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Rilis: 2026-02-17	GLM 5.2 GLM 5.2 none Rilis: 2026-06-17
Skor	7.8	7.1
Peringkat	#32	#63
Keandalan	10.0	9.9
Konsistensi	9.1	9.6
Tes benar
Tingkat lulus per percobaan	65.1%	60.3%
Tes tidak stabil	2	1
Total Run	63	63
Biaya per hasil	10.904	0.628
Total Biaya	$1.418	$0.051
Harga input	$3.000 / 1M	$0.930 / 1M
Harga output	$15.000 / 1M	$3.000 / 1M
Total token input	49,112	38,671
Token output	54,703	4,817
Token penalaran	29,970	0
Waktu respons (rata-rata)	17.06s	6.34s
Waktu respons (maks)	46.35s	20.69s
Waktu respons (total)	221.83s	133.19s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#32 Claude Sonnet 4.6

medium

SVG tidak valid

Biaya: $0.000
Waktu: 300.0s
Token: 0 tok

#63 GLM 5.2

none

SVG tidak valid

Biaya: $0.033
Waktu: 87.7s
Token: 7,455 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	789	1,046	1,093
GLM 5.2	8.3	10.0	75.0%	0		3.70s	567	313	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	5.7	6.6	44.4%	1		33.29s	6,995	16,089	3,686
GLM 5.2	3.7	9.5	0.0%	0		7.55s	7,263	1,958	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	18,351	5,871	3,962
GLM 5.2	10.0	10.0	100.0%	0		20.69s	14,296	1,489	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	8,676	649	742
GLM 5.2	10.0	10.0	100.0%	0		7.17s	7,113	204	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	471	25,790	16,919
GLM 5.2	5.3	10.0	33.3%	0		6.50s	696	27	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	564	256	433
GLM 5.2	6.1	3.1	66.7%	1		4.42s	480	82	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	792	318	552
GLM 5.2	9.8	10.0	100.0%	0		3.84s	642	66	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		5.31s	816	592	646
GLM 5.2	7.7	10.0	66.7%	0		3.31s	618	265	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	11,454	655	351
GLM 5.2	10.0	10.0	100.0%	0		15.76s	6,807	400	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	204	3,437	1,586
GLM 5.2	3.0	10.0	0.0%	0		3.41s	189	13	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemma 4 26B A4BmediumTersedia gratisvsGLM 5.2none Step 3.7 FlashhighvsGLM 5.2none Laguna XS 2.1mediumTersedia gratisvsGLM 5.2none Kimi K2.7 CodemediumvsGLM 5.2none Claude Sonnet 4.6mediumvsStep 3.7 Flashlow Grok 4.20mediumvsGLM 5.2none Claude Sonnet 4.6mediumvsDeepSeek V4 Prohigh Gemini 3 Flash PreviewlowvsGLM 5.2none MiMo-V2.5-PromediumvsGLM 5.2none Seed-2.0-MinimediumvsGLM 5.2none Qwen3.5-FlashmediumvsGLM 5.2none Gemini 3.5 FlashminimalvsGLM 5.2none