Gemini 2.5 Flash vs GLM 5 Turbo Benchmark-Vergleich: GLM 5 Turbo führt beim Durchschnittsscore mit 8.4 vs 8.2. GLM 5 Turbo hat die niedrigeren Benchmark-Kosten mit $0.323 vs $0.379. Gemini 2.5 Flash ist schneller mit 15.49s vs 23.00s, mit Erfolgsraten von 69.8% vs 74.6%.
Empfohlenes Modell: Gemini 2.5 Flash - Es bietet den besten Gesamtkompromiss: wettbewerbsfähige Punktzahl (8.2), schnellere Antwort als GLM 5 Turbo und ausgewogene Kosten.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18
GLM 5 TurboGLM 5 TurbomediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-15
GLM 5 TurboGLM 5 TurbomediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-15
Punktzahl
8.2Durchschnittswert über alle Benchmark-Tests.…
8.4Durchschnittswert über alle Benchmark-Tests.…
Rang
#24
#21
Zuverlässigkeit
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
9.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
8.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 6Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)15.49sAntwortzeit (Maximum)95.48sAntwortzeit (Gesamt)325.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Keine Antwort: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)23.00sAntwortzeit (Maximum)194.23sAntwortzeit (Gesamt)482.97sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
69.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
74.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
4Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
2.701Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
2.011Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.379Gesamtkosten (aktueller Preis)…
$0.323Gesamtkosten (aktueller Preis)…
Eingabepreis
$0.300 / 1MEingabepreis…
$1.200 / 1MEingabepreis…
Ausgabepreis
$2.500 / 1MAusgabepreis…
$4.000 / 1MAusgabepreis…
Gesamte Eingabe-Token
34,476Gesamte Eingabe-Token…
35,593Gesamte Eingabe-Token…
Ausgabe-Token
1,930Ausgabe-Token…
12,245Ausgabe-Token…
Denk-Token
145,145Denk-Token…
62,277Denk-Token…
Antwortzeit (Durchschnitt)
15.49sAntwortzeit (Durchschnitt)…
23.00sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
95.48sAntwortzeit (Maximum)…
194.23sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
325.39sAntwortzeit (Gesamt)…
482.97sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
75.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.30sAntwortzeit (Maximum)15.56sAntwortzeit (Gesamt)25.21sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.30sAntwortzeit (Durchschnitt)…
492Gesamte Eingabe-Token…
255Ausgabe-Token…
10,233Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.82sAntwortzeit (Maximum)7.69sAntwortzeit (Gesamt)19.26sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)41.01sAntwortzeit (Maximum)92.88sAntwortzeit (Gesamt)123.04sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
41.01sAntwortzeit (Durchschnitt)…
6,669Gesamte Eingabe-Token…
543Ausgabe-Token…
32,303Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.2Durchschnittswert über alle Benchmark-Tests.…
9.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)45.90sAntwortzeit (Maximum)95.57sAntwortzeit (Gesamt)137.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.44sAntwortzeit (Maximum)28.44sAntwortzeit (Gesamt)28.44sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
28.44sAntwortzeit (Durchschnitt)…
12,522Gesamte Eingabe-Token…
303Ausgabe-Token…
11,922Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.88sAntwortzeit (Maximum)13.88sAntwortzeit (Gesamt)13.88sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.06sAntwortzeit (Maximum)5.06sAntwortzeit (Gesamt)8.11sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.06sAntwortzeit (Durchschnitt)…
7,257Gesamte Eingabe-Token…
279Ausgabe-Token…
2,325Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.19sAntwortzeit (Maximum)6.42sAntwortzeit (Gesamt)12.38sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)37.34sAntwortzeit (Maximum)95.48sAntwortzeit (Gesamt)112.01sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
37.34sAntwortzeit (Durchschnitt)…
633Gesamte Eingabe-Token…
18Ausgabe-Token…
80,702Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
2.9Durchschnittswert über alle Benchmark-Tests.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)71.07sAntwortzeit (Maximum)194.23sAntwortzeit (Gesamt)213.22sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.86sAntwortzeit (Maximum)4.86sAntwortzeit (Gesamt)4.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.86sAntwortzeit (Durchschnitt)…
486Gesamte Eingabe-Token…
92Ausgabe-Token…
1,899Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.1Durchschnittswert über alle Benchmark-Tests.…
3.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.05sAntwortzeit (Maximum)10.05sAntwortzeit (Gesamt)10.05sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.62sAntwortzeit (Maximum)2.78sAntwortzeit (Gesamt)5.24sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.62sAntwortzeit (Durchschnitt)…
615Gesamte Eingabe-Token…
69Ausgabe-Token…
1,203Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.38sAntwortzeit (Maximum)5.70sAntwortzeit (Gesamt)10.77sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.18sAntwortzeit (Maximum)4.05sAntwortzeit (Gesamt)9.54sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.18sAntwortzeit (Durchschnitt)…
558Gesamte Eingabe-Token…
126Ausgabe-Token…
2,499Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.7Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
77.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.23sAntwortzeit (Maximum)7.26sAntwortzeit (Gesamt)15.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.20sAntwortzeit (Maximum)6.20sAntwortzeit (Gesamt)6.20sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.20sAntwortzeit (Durchschnitt)…
5,088Gesamte Eingabe-Token…
234Ausgabe-Token…
1,140Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.84sAntwortzeit (Maximum)9.84sAntwortzeit (Gesamt)9.84sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.76sAntwortzeit (Maximum)2.76sAntwortzeit (Gesamt)2.76sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.76sAntwortzeit (Durchschnitt)…
156Gesamte Eingabe-Token…
11Ausgabe-Token…
919Denk-Token…
GLM 5 TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)40.17sAntwortzeit (Maximum)40.17sAntwortzeit (Gesamt)40.17sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…