Qwen3.5-122B-A10B vs GLM 5V Turbo Benchmark-Vergleich: GLM 5V Turbo führt beim Durchschnittsscore mit 5.9 vs 5.3. Qwen3.5-122B-A10B hat die niedrigeren Benchmark-Kosten mit $0.020 vs $0.052. GLM 5V Turbo ist schneller mit 2.99s vs 3.41s, mit Erfolgsraten von 31.8% vs 38.1%.
Empfohlenes Modell: Qwen3.5-122B-A10B - Die Punktzahl bleibt nah an der besten hier (5.3 vs 5.9) und es kostet etwa 2.7x weniger als GLM 5V Turbo.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18
GLM 5V TurboGLM 5V TurbononeArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-01
GLM 5V TurboGLM 5V TurbononeArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-01
Punktzahl
5.3Durchschnittswert über alle Benchmark-Tests.…
5.9Durchschnittswert über alle Benchmark-Tests.…
Rang
#125
#105
Zuverlässigkeit
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
9.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 13Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)3.41sAntwortzeit (Maximum)46.00sAntwortzeit (Gesamt)71.59sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)2.99sAntwortzeit (Maximum)6.51sAntwortzeit (Gesamt)62.74sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
31.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
38.1%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
0.393Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.645Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.020Gesamtkosten (aktueller Preis)…
$0.052Gesamtkosten (aktueller Preis)…
Eingabepreis
$0.260 / 1MEingabepreis…
$1.200 / 1MEingabepreis…
Ausgabepreis
$2.080 / 1MAusgabepreis…
$4.000 / 1MAusgabepreis…
Gesamte Eingabe-Token
47,735Gesamte Eingabe-Token…
37,100Gesamte Eingabe-Token…
Ausgabe-Token
3,383Ausgabe-Token…
1,766Ausgabe-Token…
Denk-Token
0Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
3.41sAntwortzeit (Durchschnitt)…
2.99sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
46.00sAntwortzeit (Maximum)…
6.51sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
71.59sAntwortzeit (Gesamt)…
62.74sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
25.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.59sAntwortzeit (Maximum)3.60sAntwortzeit (Gesamt)6.38sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.59sAntwortzeit (Durchschnitt)…
696Gesamte Eingabe-Token…
312Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.8Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
25.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)3.13sAntwortzeit (Maximum)5.90sAntwortzeit (Gesamt)12.50sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)2.77sAntwortzeit (Maximum)4.03sAntwortzeit (Gesamt)8.32sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.77sAntwortzeit (Durchschnitt)…
7,913Gesamte Eingabe-Token…
693Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.13sAntwortzeit (Maximum)5.30sAntwortzeit (Gesamt)9.40sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)46.00sAntwortzeit (Maximum)46.00sAntwortzeit (Gesamt)46.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
46.00sAntwortzeit (Durchschnitt)…
20,175Gesamte Eingabe-Token…
1,137Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.51sAntwortzeit (Maximum)6.51sAntwortzeit (Gesamt)6.51sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.01sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.02sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.01sAntwortzeit (Durchschnitt)…
7,794Gesamte Eingabe-Token…
243Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)5.69sAntwortzeit (Gesamt)7.62sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)465msAntwortzeit (Maximum)492msAntwortzeit (Gesamt)1.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
465msAntwortzeit (Durchschnitt)…
789Gesamte Eingabe-Token…
15Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.09sAntwortzeit (Maximum)2.39sAntwortzeit (Gesamt)6.26sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.12sAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)1.12sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.12sAntwortzeit (Durchschnitt)…
522Gesamte Eingabe-Token…
66Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.6Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.22sAntwortzeit (Maximum)2.22sAntwortzeit (Gesamt)2.22sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)513msAntwortzeit (Maximum)570msAntwortzeit (Gesamt)1.03sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
513msAntwortzeit (Durchschnitt)…
711Gesamte Eingabe-Token…
69Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.97sAntwortzeit (Maximum)2.43sAntwortzeit (Gesamt)3.93sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.00sAntwortzeit (Maximum)1.41sAntwortzeit (Gesamt)3.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
1.00sAntwortzeit (Durchschnitt)…
714Gesamte Eingabe-Token…
575Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)2.40sAntwortzeit (Maximum)3.81sAntwortzeit (Gesamt)7.21sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.04sAntwortzeit (Maximum)2.04sAntwortzeit (Gesamt)2.04sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.04sAntwortzeit (Durchschnitt)…
8,211Gesamte Eingabe-Token…
264Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.86sAntwortzeit (Maximum)4.86sAntwortzeit (Gesamt)4.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)295msAntwortzeit (Maximum)295msAntwortzeit (Gesamt)295msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
295msAntwortzeit (Durchschnitt)…
210Gesamte Eingabe-Token…
9Ausgabe-Token…
0Denk-Token…
GLM 5V TurboArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.23sAntwortzeit (Maximum)2.23sAntwortzeit (Gesamt)2.23sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…