AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Zusammenfassung

Step 3.5 Flash vs GLM 5 Benchmark-Vergleich: Step 3.5 Flash führt beim Durchschnittsscore mit 6.6 vs 6.0. GLM 5 hat die niedrigeren Benchmark-Kosten mit $0.027 vs $0.070. GLM 5 ist schneller mit 4.03s vs 72.53s, mit Erfolgsraten von 54.0% vs 44.4%.

Empfohlenes Modell: GLM 5 - Die Punktzahl bleibt nah an der besten hier (6.0 vs 6.6) und es kostet etwa 2.6x weniger als Step 3.5 Flash.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Step 3.5 Flash Step 3.5 Flash medium Veröffentlichung: 2026-02-01	GLM 5 GLM 5 none Veröffentlichung: 2026-02-12

Metrik	Step 3.5 Flash Step 3.5 Flash medium Veröffentlichung: 2026-02-01	GLM 5 GLM 5 none Veröffentlichung: 2026-02-12
Punktzahl	6.6	6.0
Rang	#80	#101
Zuverlässigkeit	10.0	10.0
Konsistenz	8.9	9.7
Korrekte Tests
Erfolgsquote pro Versuch	54.0%	44.4%
Instabile Tests	1	1
Gesamtläufe	60	63
Kosten pro Ergebnis	0.198	0.263
Gesamtkosten	$0.070	$0.027
Eingabepreis	$0.090 / 1M	$0.600 / 1M
Ausgabepreis	$0.300 / 1M	$1.920 / 1M
Gesamte Eingabe-Token	34,431	37,135
Ausgabe-Token	91,587	1,989
Denk-Token	195,973	0
Antwortzeit (Durchschnitt)	72.53s	4.03s
Antwortzeit (Maximum)	453.94s	11.07s
Antwortzeit (Gesamt)	1015.47s	56.37s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Step 3.5 Flash

medium

Kosten: $0.008
Zeit: 277.1s
Token: 23,695 tok

#101 GLM 5

none

Kosten: $0.007
Zeit: 32.1s
Token: 2,023 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	10.0	10.0	100.0%	0		40.57s	694	20,391	24,176
GLM 5	4.8	10.0	25.0%	0		2.37s	510	275	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	2.4	5.2	0.0%	0		258.38s	2,211	13,207	22,429
GLM 5	4.0	7.8	11.1%	1		5.12s	7,256	428	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	13,638	1,176	12,984
GLM 5	3.0	10.0	0.0%	0		4.98s	12,812	406	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	7,368	600	13,886
GLM 5	10.0	10.0	100.0%	0		5.78s	7,107	203	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	5.3	7.2	44.4%	1		170.45s	673	45,350	90,436
GLM 5	3.0	10.0	0.0%	0		2.24s	643	19	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	5.5	10.0	0.0%	0		22.39s	509	240	3,506
GLM 5	10.0	10.0	100.0%	0		3.27s	477	103	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	8.3	10.0	50.0%	0		4.78s	705	2,364	3,521
GLM 5	10.0	10.0	100.0%	0		1.48s	636	61	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	5.3	10.0	33.3%	0		7.22s	711	5,630	10,861
GLM 5	7.7	10.0	66.7%	0		1.91s	609	261	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	7,701	275	3,802
GLM 5	10.0	10.0	100.0%	0		11.07s	6,899	220	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.5 Flash	3.0	10.0	0.0%	0		108.45s	221	2,354	10,372
GLM 5	3.0	10.0	0.0%	0		3.62s	186	13	0

Schnellvergleich

Vergleichspaar wechseln

North Mini CodemediumKostenlos verfügbarvsGLM 5none Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmedium Gemini 3.1 Flash LiteminimalvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash LitelowvsStep 3.5 Flashmedium Gemini 3.5 FlashminimalvsStep 3.5 Flashmedium Qwen3.7 MaxnonevsStep 3.5 Flashmedium Gemini 3 Flash PreviewnonevsStep 3.5 Flashmedium Qwen3.5-35B-A3BmediumvsGLM 5none GPT-5.5nonevsStep 3.5 Flashmedium Gemma 4 31BmediumKostenlos verfügbarvsGLM 5none Nemotron 3 SupermediumKostenlos verfügbarvsGLM 5none