AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Z.ai: GLM 5.1

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-22

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Veröffentlichung: 2026-04-24	GLM 5.1 GLM 5.1 none Veröffentlichung: 2026-04-07

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Veröffentlichung: 2026-04-24	GLM 5.1 GLM 5.1 none Veröffentlichung: 2026-04-07
Punktzahl	6.0	5.6
Rang	#95	#113
Zuverlässigkeit	8.1	10.0
Konsistenz	8.9	8.1
Korrekte Tests
Erfolgsquote pro Versuch	48.3%	40.0%
Instabile Tests	3	5
Gesamtläufe	60	60
Kosten pro Ergebnis	0.564	0.941
Gesamtkosten	$0.046	$0.057
Eingabepreis	$0.435 / 1M	$0.980 / 1M
Ausgabepreis	$0.870 / 1M	$3.080 / 1M
Ausgabe-Token	5,347	3,749
Denk-Token	0	0
Antwortzeit (Durchschnitt)	13.48s	4.16s
Antwortzeit (Maximum)	58.65s	32.57s
Antwortzeit (Gesamt)	269.56s	83.23s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.5	8.0	16.7%	1		14.02s	704	0
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	5.4	6.8	33.3%	1		8.27s	527	0
GLM 5.1	4.3	9.5	0.0%	0		6.33s	519	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	9.5	10.0	100.0%	0		25.49s	1,911	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	8.8	10.0	100.0%	0		30.54s	170	0
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.17s	18	0
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	4.3	9.9	0.0%	0		3.75s	132	0
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	6.3	10.0	50.0%	0		8.23s	64	0
GLM 5.1	9.8	10.0	100.0%	0		1.58s	66	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	7.6	7.2	77.8%	1		19.72s	175	0
GLM 5.1	6.1	7.8	44.4%	1		1.48s	152	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		5.92s	219	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.0	10.0	0.0%	0		15.59s	1,427	0
GLM 5.1	3.0	10.0	0.0%	0		2.34s	11	0

Schnellvergleich

Vergleichspaar wechseln

gpt-oss-120bmediumKostenlos verfügbarvsGLM 5.1none DeepSeek V4 PrononevsGPT-5 Nanomedium DeepSeek V4 PrononevsNemotron 3 SupermediumKostenlos verfügbar MiniMax M2.5mediumKostenlos verfügbarvsGLM 5.1none CobuddymediumKostenlos verfügbarvsGLM 5.1none Mistral Small 4mediumvsGLM 5.1none DeepSeek V4 PrononevsOwl Alphamedium Elephant AlphamediumvsGLM 5.1none DeepSeek V4 PrononevsMercury 2medium Owl AlphamediumvsGLM 5.1none CobuddymediumKostenlos verfügbarvsDeepSeek V4 Pronone Nemotron 3 SupermediumKostenlos verfügbarvsGLM 5.1none