AI BENCHY Compare

Google: Gemini 3.5 Flash vs Z.ai: GLM 4.7 Flash

Zusammenfassung

Gemini 3.5 Flash vs GLM 4.7 Flash Benchmark-Vergleich: Gemini 3.5 Flash führt beim Durchschnittsscore mit 9.8 vs 4.9. GLM 4.7 Flash hat die niedrigeren Benchmark-Kosten mit $0.004 vs $1.115. GLM 4.7 Flash ist schneller mit 2.86s vs 8.84s, mit Erfolgsraten von 96.8% vs 36.5%.

Empfohlenes Modell: Gemini 3.5 Flash - Es hat die stärkste Punktzahl in diesem Vergleich (9.8) und die beste Gesamtbalance aus Kosten und Antwortzeit über alle 2 Modelle.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash high Veröffentlichung: 2026-05-19	GLM 4.7 Flash GLM 4.7 Flash none Veröffentlichung: 2026-01-19

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash high Veröffentlichung: 2026-05-19	GLM 4.7 Flash GLM 4.7 Flash none Veröffentlichung: 2026-01-19
Punktzahl	9.8	4.9
Rang	#1	#146
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	8.8
Korrekte Tests
Erfolgsquote pro Versuch	96.8%	36.5%
Instabile Tests	1	3
Gesamtläufe	63	63
Kosten pro Ergebnis	5.575	0.056
Gesamtkosten	$1.115	$0.004
Eingabepreis	$1.500 / 1M	$0.060 / 1M
Ausgabepreis	$9.000 / 1M	$0.400 / 1M
Gesamte Eingabe-Token	37,594	38,745
Ausgabe-Token	1,975	2,521
Denk-Token	115,638	0
Antwortzeit (Durchschnitt)	8.84s	2.86s
Antwortzeit (Maximum)	34.82s	7.05s
Antwortzeit (Gesamt)	185.57s	40.04s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#1 Gemini 3.5 Flash

high

Kosten: $0.208
Zeit: 118.2s
Token: 23,158 tok

#146 GLM 4.7 Flash

none

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.57s	492	174	4,997
GLM 4.7 Flash	5.2	7.9	41.7%	1		5.51s	555	438	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.96s	8,118	456	47,129
GLM 4.7 Flash	4.3	10.0	0.0%	0		2.54s	7,256	650	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.37s	12,873	351	16,323
GLM 4.7 Flash	3.0	10.0	0.0%	0		3.22s	14,325	704	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.43s	7,548	279	8,466
GLM 4.7 Flash	7.3	5.8	83.3%	1		4.82s	7,107	196	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	7.6	7.2	77.8%	1		14.09s	633	12	24,721
GLM 4.7 Flash	7.7	10.0	66.7%	0		744ms	687	19	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.63s	486	115	1,650
GLM 4.7 Flash	4.0	10.0	0.0%	0		1.59s	477	134	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.35s	615	70	3,799
GLM 4.7 Flash	6.5	10.0	50.0%	0		888ms	636	62	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.23s	558	241	4,940
GLM 4.7 Flash	6.4	10.0	33.3%	0		1.20s	609	97	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	9.8	10.0	100.0%	0		4.96s	6,115	265	1,608
GLM 4.7 Flash	2.8	1.6	33.3%	1		7.05s	6,907	212	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.94s	156	12	2,005
GLM 4.7 Flash	3.0	10.0	0.0%	0		692ms	186	9	0

Schnellvergleich

Vergleichspaar wechseln

CobuddymediumvsGLM 4.7 Flashnone MiniMax M2.5mediumvsGLM 4.7 Flashnone Qwen3 Coder NextmediumvsGLM 4.7 Flashnone Mistral Small 4mediumvsGLM 4.7 Flashnone MiniMax M2.7mediumvsGLM 4.7 Flashnone Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Gemini 3.5 FlashhighvsGPT-5.5low Claude Fable 5mediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.5medium Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsQwen3.6 Max Previewmedium North Mini CodemediumKostenlos verfügbarvsGLM 4.7 Flashnone