AI BENCHY Compare

Google: Gemini 3.5 Flash vs Z.ai: GLM 5.2

Zusammenfassung

Gemini 3.5 Flash vs GLM 5.2 Benchmark-Vergleich: GLM 5.2 führt beim Durchschnittsscore mit 7.1 vs 7.0. GLM 5.2 hat die niedrigeren Benchmark-Kosten mit $0.051 vs $1.079. GLM 5.2 ist schneller mit 6.34s vs 9.93s, mit Erfolgsraten von 77.8% vs 60.3%.

Empfohlenes Modell: GLM 5.2 - Es hat hier die beste Punktzahl (7.1) und kostet etwa 21.4x weniger als Gemini 3.5 Flash.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash none Veröffentlichung: 2026-05-19	GLM 5.2 GLM 5.2 none Veröffentlichung: 2026-06-17

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash none Veröffentlichung: 2026-05-19	GLM 5.2 GLM 5.2 none Veröffentlichung: 2026-06-17
Punktzahl	7.0	7.1
Rang	#69	#63
Zuverlässigkeit	10.0	9.9
Konsistenz	8.9	9.6
Korrekte Tests
Erfolgsquote pro Versuch	77.8%	60.3%
Instabile Tests	3	1
Gesamtläufe	63	63
Kosten pro Ergebnis	7.190	0.628
Gesamtkosten	$1.079	$0.051
Eingabepreis	$1.500 / 1M	$0.930 / 1M
Ausgabepreis	$9.000 / 1M	$3.000 / 1M
Gesamte Eingabe-Token	13,843	38,671
Ausgabe-Token	117,518	4,817
Denk-Token	0	0
Antwortzeit (Durchschnitt)	9.93s	6.34s
Antwortzeit (Maximum)	64.36s	20.69s
Antwortzeit (Gesamt)	178.68s	133.19s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#69 Gemini 3.5 Flash

none

Kosten: $0.225
Zeit: 125.5s
Token: 25,004 tok

#63 GLM 5.2

none

Ungültiges SVG

Kosten: $0.033
Zeit: 87.7s
Token: 7,455 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.53s	492	5,101	0
GLM 5.2	8.3	10.0	75.0%	0		3.70s	567	313	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	8.8	7.8	88.9%	1		34.69s	8,122	75,927	0
GLM 5.2	3.7	9.5	0.0%	0		7.55s	7,263	1,958	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
GLM 5.2	10.0	10.0	100.0%	0		20.69s	14,296	1,489	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	6.5	10.0	50.0%	0		8.10s	2,781	5,895	0
GLM 5.2	10.0	10.0	100.0%	0		7.17s	7,113	204	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	7.6	7.2	77.8%	1		10.64s	633	17,910	0
GLM 5.2	5.3	10.0	33.3%	0		6.50s	696	27	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.46s	486	1,620	0
GLM 5.2	6.1	3.1	66.7%	1		4.42s	480	82	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	9.8	10.0	100.0%	0		3.38s	615	3,928	0
GLM 5.2	9.8	10.0	100.0%	0		3.84s	642	66	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.13s	558	4,640	0
GLM 5.2	7.7	10.0	66.7%	0		3.31s	618	265	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
GLM 5.2	10.0	10.0	100.0%	0		15.76s	6,807	400	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	2.8	1.6	33.3%	1		4.87s	156	2,497	0
GLM 5.2	3.0	10.0	0.0%	0		3.41s	189	13	0

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.5 FlashnonevsKimi K2.7 Codemedium Gemma 4 26B A4BmediumKostenlos verfügbarvsGLM 5.2none Step 3.7 FlashhighvsGLM 5.2none Gemini 3.5 FlashnonevsLaguna XS 2.1mediumKostenlos verfügbar Laguna XS 2.1mediumKostenlos verfügbarvsGLM 5.2none Gemini 3.5 FlashnonevsGLM 5.1medium Gemini 3.5 FlashnonevsStep 3.7 Flashhigh Kimi K2.7 CodemediumvsGLM 5.2none Gemini 3.5 FlashnonevsQwen3.5-Flashmedium Gemini 3.5 FlashnonevsRing-2.6-1Tmedium Grok 4.20mediumvsGLM 5.2none Gemini 3 Flash PreviewlowvsGLM 5.2none