AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Z.ai: GLM 4.7 Flash

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-22

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Veröffentlichung: 2025-12-01	GLM 4.7 Flash GLM 4.7 Flash none Veröffentlichung: 2026-01-19

Metrik	DeepSeek V3.2 DeepSeek V3.2 none Veröffentlichung: 2025-12-01	GLM 4.7 Flash GLM 4.7 Flash none Veröffentlichung: 2026-01-19
Punktzahl	5.6	5.6
Rang	#114	#109
Zuverlässigkeit	10.0	10.0
Konsistenz	8.0	8.7
Korrekte Tests
Erfolgsquote pro Versuch	46.7%	38.3%
Instabile Tests	5	3
Gesamtläufe	60	60
Kosten pro Ergebnis	0.254	0.053
Gesamtkosten	$0.018	$0.004
Eingabepreis	$0.252 / 1M	$0.060 / 1M
Ausgabepreis	$0.378 / 1M	$0.400 / 1M
Ausgabe-Token	11,163	2,516
Denk-Token	0	0
Antwortzeit (Durchschnitt)	14.46s	2.98s
Antwortzeit (Maximum)	115.89s	7.05s
Antwortzeit (Gesamt)	289.21s	38.73s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	3.3	8.2	12.5%	1		9.35s	1,073	0
GLM 4.7 Flash	5.2	7.9	41.7%	1		5.51s	438	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	3.1	5.4	16.7%	1		20.87s	4,522	0
GLM 4.7 Flash	5.0	10.0	0.0%	0		3.35s	644	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		3.22s	704	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
GLM 4.7 Flash	7.3	5.8	83.3%	1		4.82s	196	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	3.0	6.9	16.7%	1		4.17s	21	0
GLM 4.7 Flash	7.7	10.0	66.7%	0		744ms	19	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	7.6	10.0	100.0%	0		9.32s	43	0
GLM 4.7 Flash	4.0	10.0	0.0%	0		1.59s	134	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
GLM 4.7 Flash	6.5	10.0	50.0%	0		888ms	62	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	7.5	7.7	88.9%	1		7.13s	302	0
GLM 4.7 Flash	6.4	10.0	33.3%	0		1.00s	98	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
GLM 4.7 Flash	2.8	1.6	33.3%	1		7.05s	212	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	17	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		692ms	9	0

Schnellvergleich

Vergleichspaar wechseln

DeepSeek V3.2nonevsgpt-oss-120bmediumKostenlos verfügbar gpt-oss-120bmediumKostenlos verfügbarvsGLM 4.7 Flashnone CobuddymediumKostenlos verfügbarvsGLM 4.7 Flashnone DeepSeek V3.2nonevsMiniMax M2.5mediumKostenlos verfügbar DeepSeek V3.2nonevsMistral Small 4medium CobuddymediumKostenlos verfügbarvsDeepSeek V3.2none DeepSeek V3.2nonevsElephant Alphamedium MiniMax M2.5mediumKostenlos verfügbarvsGLM 4.7 Flashnone Owl AlphamediumvsGLM 4.7 Flashnone Mistral Small 4mediumvsGLM 4.7 Flashnone Elephant AlphamediumvsGLM 4.7 Flashnone DeepSeek V3.2nonevsOwl Alphamedium