AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Z.ai: GLM 5.2

Zusammenfassung

Claude Sonnet 4.6 vs GLM 5.2 Benchmark-Vergleich: Claude Sonnet 4.6 führt beim Durchschnittsscore mit 7.8 vs 7.1. GLM 5.2 hat die niedrigeren Benchmark-Kosten mit $0.051 vs $1.418. GLM 5.2 ist schneller mit 6.34s vs 17.06s, mit Erfolgsraten von 65.1% vs 60.3%.

Empfohlenes Modell: GLM 5.2 - Die Punktzahl bleibt nah an der besten hier (7.1 vs 7.8) und es kostet etwa 28.1x weniger als Claude Sonnet 4.6.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Veröffentlichung: 2026-02-17	GLM 5.2 GLM 5.2 none Veröffentlichung: 2026-06-17

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Veröffentlichung: 2026-02-17	GLM 5.2 GLM 5.2 none Veröffentlichung: 2026-06-17
Punktzahl	7.8	7.1
Rang	#32	#63
Zuverlässigkeit	10.0	9.9
Konsistenz	9.1	9.6
Korrekte Tests
Erfolgsquote pro Versuch	65.1%	60.3%
Instabile Tests	2	1
Gesamtläufe	63	63
Kosten pro Ergebnis	10.904	0.628
Gesamtkosten	$1.418	$0.051
Eingabepreis	$3.000 / 1M	$0.930 / 1M
Ausgabepreis	$15.000 / 1M	$3.000 / 1M
Gesamte Eingabe-Token	49,112	38,671
Ausgabe-Token	54,703	4,817
Denk-Token	29,970	0
Antwortzeit (Durchschnitt)	17.06s	6.34s
Antwortzeit (Maximum)	46.35s	20.69s
Antwortzeit (Gesamt)	221.83s	133.19s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#32 Claude Sonnet 4.6

medium

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

#63 GLM 5.2

none

Ungültiges SVG

Kosten: $0.033
Zeit: 87.7s
Token: 7,455 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	789	1,046	1,093
GLM 5.2	8.3	10.0	75.0%	0		3.70s	567	313	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	5.7	6.6	44.4%	1		33.29s	6,995	16,089	3,686
GLM 5.2	3.7	9.5	0.0%	0		7.55s	7,263	1,958	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	18,351	5,871	3,962
GLM 5.2	10.0	10.0	100.0%	0		20.69s	14,296	1,489	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	8,676	649	742
GLM 5.2	10.0	10.0	100.0%	0		7.17s	7,113	204	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	471	25,790	16,919
GLM 5.2	5.3	10.0	33.3%	0		6.50s	696	27	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	564	256	433
GLM 5.2	6.1	3.1	66.7%	1		4.42s	480	82	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	792	318	552
GLM 5.2	9.8	10.0	100.0%	0		3.84s	642	66	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		5.31s	816	592	646
GLM 5.2	7.7	10.0	66.7%	0		3.31s	618	265	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	11,454	655	351
GLM 5.2	10.0	10.0	100.0%	0		15.76s	6,807	400	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	204	3,437	1,586
GLM 5.2	3.0	10.0	0.0%	0		3.41s	189	13	0

Schnellvergleich

Vergleichspaar wechseln

Gemma 4 26B A4BmediumKostenlos verfügbarvsGLM 5.2none Step 3.7 FlashhighvsGLM 5.2none Laguna XS 2.1mediumKostenlos verfügbarvsGLM 5.2none Kimi K2.7 CodemediumvsGLM 5.2none Claude Sonnet 4.6mediumvsStep 3.7 Flashlow Grok 4.20mediumvsGLM 5.2none Claude Sonnet 4.6mediumvsDeepSeek V4 Prohigh Gemini 3 Flash PreviewlowvsGLM 5.2none MiMo-V2.5-PromediumvsGLM 5.2none Seed-2.0-MinimediumvsGLM 5.2none Qwen3.5-FlashmediumvsGLM 5.2none Gemini 3.5 FlashminimalvsGLM 5.2none