AI BENCHY Compare

xAI: Grok 4.20 Beta vs Z.ai: GLM 5

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-03-12

Metrik	Grok 4.20 Beta Grok 4.20 Beta medium Veröffentlichung: 2026-03-12	GLM 5 GLM 5 none Veröffentlichung: 2026-02-12

Metrik	Grok 4.20 Beta Grok 4.20 Beta medium Veröffentlichung: 2026-03-12	GLM 5 GLM 5 none Veröffentlichung: 2026-02-12
Rang	#24	#33
Ø-Score	7.0	6.0
Konsistenz	9.0	10.0
Kosten pro Ergebnis	5.989	0.200
Gesamtkosten	$0.599	$0.018
Korrekte Tests
Erfolgsquote pro Versuch	70.8%	56.3%
Instabile Tests	2	0
Gesamtläufe	48	48
Ausgabe-Token	1,481	1,548
Denk-Token	86,628	0
Antwortzeit (Durchschnitt)	8.89s	4.03s
Antwortzeit (Maximum)	24.21s	11.07s
Antwortzeit (Gesamt)	142.18s	36.30s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Ø-Score vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Ø-Score vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	7.0	7.2	88.9%	1		3.19s	262	6,289
GLM 5	4.0	10.0	33.3%	0		3.39s	272	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212
GLM 5	10.0	10.0	0.0%	0		4.98s	406	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	9.9	10.0	100.0%	0		4.01s	180	5,281
GLM 5	9.9	10.0	100.0%	0		5.78s	203	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	4.0	10.0	33.3%	0		21.33s	251	40,255
GLM 5	10.0	10.0	0.0%	0		2.24s	19	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	9.0	10.0	50.0%	0		4.97s	57	7,107
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	7.0	7.2	88.9%	1		3.85s	249	6,660
GLM 5	7.0	10.0	66.7%	0		2.05s	264	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	10.0	10.0	0.0%	0		12.39s	183	5,384
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Schnellvergleich

Vergleichspaar wechseln

GPT-5 MinimediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20 Betamedium Hunter AlphamediumvsGLM 5none Grok 4.1 FastmediumvsGLM 5none Gemini 3 Flash PreviewnonevsGrok 4.20 Betamedium Claude Sonnet 4.6nonevsGrok 4.20 Betamedium Nemotron 3 Super 120b A12bmediumKostenlos verfügbarvsGLM 5none GPT-5.3 ChatnonevsGrok 4.20 Betamedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.20 Betamedium Kimi K2.5mediumvsGLM 5none GPT-5.2 ChatnonevsGrok 4.20 Betamedium GPT-5.2mediumvsGLM 5none