GPT-5.5 vs Grok Build 0.1 Benchmark-Vergleich: GPT-5.5 führt beim Durchschnittsscore mit 9.3 vs 4.2. Grok Build 0.1 hat die niedrigeren Benchmark-Kosten mit $0.547 vs $0.907. GPT-5.5 ist schneller mit 9.76s vs 28.69s, mit Erfolgsraten von 85.7% vs 46.0%.
Empfohlenes Modell: GPT-5.5 - Es hat hier die beste Punktzahl (9.3) und antwortet etwa 2.9x schneller als Grok Build 0.1.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02
Grok Build 0.1Grok Build 0.1noneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-05-21
Grok Build 0.1Grok Build 0.1noneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-05-21
Punktzahl
9.3Durchschnittswert über alle Benchmark-Tests.…
4.2Durchschnittswert über alle Benchmark-Tests.…
Rang
#4
#165
Zuverlässigkeit
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
7.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)9.76sAntwortzeit (Maximum)56.19sAntwortzeit (Gesamt)204.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 7API-Fehler: 3Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)28.69sAntwortzeit (Maximum)138.35sAntwortzeit (Gesamt)459.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
85.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
46.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
4Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
57Gesamtläufe…
Kosten pro Ergebnis
5.035Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
7.805Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.907Gesamtkosten (aktueller Preis)…
$0.547Gesamtkosten (aktueller Preis)…
Eingabepreis
$5.000 / 1MEingabepreis…
$1.000 / 1MEingabepreis…
Ausgabepreis
$30.000 / 1MAusgabepreis…
$2.000 / 1MAusgabepreis…
Gesamte Eingabe-Token
34,209Gesamte Eingabe-Token…
11,793Gesamte Eingabe-Token…
Ausgabe-Token
2,046Ausgabe-Token…
267,275Ausgabe-Token…
Denk-Token
22,460Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
9.76sAntwortzeit (Durchschnitt)…
28.69sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
56.19sAntwortzeit (Maximum)…
138.35sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
204.92sAntwortzeit (Gesamt)…
459.00sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#4 GPT-5.5
low
Kosten
$0.068
Zeit
37.0s
Token
2,339 tok
#165 xAI: Grok Build 0.1
none
Für dieses Modell wurde noch kein Showcase-Ergebnis generiert.
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.41sAntwortzeit (Maximum)6.32sAntwortzeit (Gesamt)17.64sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.41sAntwortzeit (Durchschnitt)…
606Gesamte Eingabe-Token…
238Ausgabe-Token…
1,020Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.7Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
91.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.30sAntwortzeit (Maximum)9.80sAntwortzeit (Gesamt)25.20sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.04sAntwortzeit (Maximum)21.06sAntwortzeit (Gesamt)45.11sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
15.04sAntwortzeit (Durchschnitt)…
7,302Gesamte Eingabe-Token…
423Ausgabe-Token…
6,402Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.3Durchschnittswert über alle Benchmark-Tests.…
3.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)21.41sAntwortzeit (Maximum)21.41sAntwortzeit (Gesamt)21.41sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.56sAntwortzeit (Maximum)9.56sAntwortzeit (Gesamt)9.56sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
9.56sAntwortzeit (Durchschnitt)…
11,019Gesamte Eingabe-Token…
303Ausgabe-Token…
717Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.28sAntwortzeit (Maximum)5.13sAntwortzeit (Gesamt)6.56sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.28sAntwortzeit (Durchschnitt)…
7,140Gesamte Eingabe-Token…
228Ausgabe-Token…
157Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.8Durchschnittswert über alle Benchmark-Tests.…
5.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)9.33sAntwortzeit (Maximum)9.33sAntwortzeit (Gesamt)9.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)28.05sAntwortzeit (Maximum)56.19sAntwortzeit (Gesamt)84.16sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
28.05sAntwortzeit (Durchschnitt)…
723Gesamte Eingabe-Token…
69Ausgabe-Token…
11,609Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.6Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)103.71sAntwortzeit (Maximum)138.35sAntwortzeit (Gesamt)311.13sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.17sAntwortzeit (Maximum)5.17sAntwortzeit (Gesamt)5.17sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.17sAntwortzeit (Durchschnitt)…
477Gesamte Eingabe-Token…
133Ausgabe-Token…
245Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)12.47sAntwortzeit (Maximum)12.47sAntwortzeit (Gesamt)12.47sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.74sAntwortzeit (Maximum)3.99sAntwortzeit (Gesamt)7.48sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.74sAntwortzeit (Durchschnitt)…
660Gesamte Eingabe-Token…
93Ausgabe-Token…
415Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.8Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.36sAntwortzeit (Maximum)11.05sAntwortzeit (Gesamt)14.73sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.74sAntwortzeit (Maximum)5.61sAntwortzeit (Gesamt)14.21sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.74sAntwortzeit (Durchschnitt)…
642Gesamte Eingabe-Token…
279Ausgabe-Token…
954Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.4Durchschnittswert über alle Benchmark-Tests.…
7.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)9.55sAntwortzeit (Maximum)18.18sAntwortzeit (Gesamt)28.65sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.96sAntwortzeit (Maximum)4.96sAntwortzeit (Gesamt)4.96sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.96sAntwortzeit (Durchschnitt)…
5,445Gesamte Eingabe-Token…
250Ausgabe-Token…
101Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.06sAntwortzeit (Maximum)10.06sAntwortzeit (Gesamt)10.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.06sAntwortzeit (Durchschnitt)…
195Gesamte Eingabe-Token…
30Ausgabe-Token…
840Denk-Token…
Grok Build 0.1Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)36.09sAntwortzeit (Maximum)36.09sAntwortzeit (Gesamt)36.09sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…