Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-26
Metrik
Grok 4.20 BetaGrok 4.20 BetamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-12
Grok 4.1 FastGrok 4.1 FastmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-19
Hunter AlphaHunter AlphamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-11
Metrik
Grok 4.20 BetaGrok 4.20 BetamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-12
Grok 4.1 FastGrok 4.1 FastmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-19
Hunter AlphaHunter AlphamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-11
Punktzahl
8.5Durchschnittswert über alle Benchmark-Tests.…
6.5Durchschnittswert über alle Benchmark-Tests.…
6.7Durchschnittswert über alle Benchmark-Tests.…
Rang
#14
#88
#76
Zuverlässigkeit
k. A.Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
k. A.Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
9.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
7.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
7.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)9.75sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)175.48sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 4Falsche Antwort: 4Keine Antwort: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)23.85sAntwortzeit (Maximum)121.79sAntwortzeit (Gesamt)286.16sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
81.5%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
61.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
64.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
6Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
6Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
52Gesamtläufe…
57Gesamtläufe…
52Gesamtläufe…
Kosten pro Ergebnis
4.505Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.642Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.631Gesamtkosten…
$0.058Gesamtkosten…
$0.000Gesamtkosten…
Eingabepreis
$0.000 / 1MEingabepreis…
$0.000 / 1MEingabepreis…
$0.000 / 1MEingabepreis…
Ausgabepreis
$0.000 / 1MAusgabepreis…
$0.000 / 1MAusgabepreis…
$0.000 / 1MAusgabepreis…
Ausgabe-Token
1,647Ausgabe-Token…
2,006Ausgabe-Token…
4,682Ausgabe-Token…
Denk-Token
91,565Denk-Token…
96,334Denk-Token…
17,969Denk-Token…
Antwortzeit (Durchschnitt)
9.75sAntwortzeit (Durchschnitt)…
23.85sAntwortzeit (Durchschnitt)…
10.33sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
31.36sAntwortzeit (Maximum)…
121.79sAntwortzeit (Maximum)…
30.53sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
175.48sAntwortzeit (Gesamt)…
286.16sAntwortzeit (Gesamt)…
175.58sAntwortzeit (Gesamt)…
Top-Modelle nach Score
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.7Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
91.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.16sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)12.65sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.16sAntwortzeit (Durchschnitt)…
268Ausgabe-Token…
7,583Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.7Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
91.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)5.65sAntwortzeit (Gesamt)7.62sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.81sAntwortzeit (Durchschnitt)…
108Ausgabe-Token…
4,741Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.3Durchschnittswert über alle Benchmark-Tests.…
5.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)4.75sAntwortzeit (Maximum)7.62sAntwortzeit (Gesamt)19.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.75sAntwortzeit (Durchschnitt)…
479Ausgabe-Token…
1,103Denk-Token…
Programmierung
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.36sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)31.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
31.36sAntwortzeit (Durchschnitt)…
81Ausgabe-Token…
3,987Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
2.3Durchschnittswert über alle Benchmark-Tests.…
1.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)23.58sAntwortzeit (Maximum)23.58sAntwortzeit (Gesamt)23.58sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
23.58sAntwortzeit (Durchschnitt)…
821Ausgabe-Token…
6,703Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
0msAntwortzeit (Durchschnitt)…
0Ausgabe-Token…
0Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.93sAntwortzeit (Maximum)20.93sAntwortzeit (Gesamt)20.93sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
20.93sAntwortzeit (Durchschnitt)…
227Ausgabe-Token…
12,212Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)37.64sAntwortzeit (Maximum)37.64sAntwortzeit (Gesamt)37.64sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
37.64sAntwortzeit (Durchschnitt)…
261Ausgabe-Token…
12,272Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.7Durchschnittswert über alle Benchmark-Tests.…
1.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)30.53sAntwortzeit (Maximum)30.53sAntwortzeit (Gesamt)30.53sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
30.53sAntwortzeit (Durchschnitt)…
792Ausgabe-Token…
3,456Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.01sAntwortzeit (Maximum)4.27sAntwortzeit (Gesamt)8.02sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.01sAntwortzeit (Durchschnitt)…
180Ausgabe-Token…
5,281Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.63sAntwortzeit (Maximum)6.63sAntwortzeit (Gesamt)6.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.63sAntwortzeit (Durchschnitt)…
180Ausgabe-Token…
5,409Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.16sAntwortzeit (Maximum)26.55sAntwortzeit (Gesamt)46.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
23.16sAntwortzeit (Durchschnitt)…
1,488Ausgabe-Token…
8,017Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)21.33sAntwortzeit (Maximum)24.21sAntwortzeit (Gesamt)64.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
21.33sAntwortzeit (Durchschnitt)…
251Ausgabe-Token…
40,255Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.8Durchschnittswert über alle Benchmark-Tests.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)121.79sAntwortzeit (Maximum)121.79sAntwortzeit (Gesamt)121.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
121.79sAntwortzeit (Durchschnitt)…
11Ausgabe-Token…
37,657Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)10.52sAntwortzeit (Maximum)18.68sAntwortzeit (Gesamt)31.56sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.52sAntwortzeit (Durchschnitt)…
892Ausgabe-Token…
2,406Denk-Token…
Allgemeine Intelligenz
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.78sAntwortzeit (Maximum)5.78sAntwortzeit (Gesamt)5.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.78sAntwortzeit (Durchschnitt)…
72Ausgabe-Token…
3,440Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.2Durchschnittswert über alle Benchmark-Tests.…
9.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.25sAntwortzeit (Maximum)16.25sAntwortzeit (Gesamt)16.25sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
16.25sAntwortzeit (Durchschnitt)…
127Ausgabe-Token…
3,456Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.0Durchschnittswert über alle Benchmark-Tests.…
3.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.44sAntwortzeit (Maximum)6.44sAntwortzeit (Gesamt)6.44sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.44sAntwortzeit (Durchschnitt)…
116Ausgabe-Token…
260Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.8Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.89sAntwortzeit (Maximum)5.89sAntwortzeit (Gesamt)9.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.89sAntwortzeit (Durchschnitt)…
57Ausgabe-Token…
7,123Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.63sAntwortzeit (Maximum)4.63sAntwortzeit (Gesamt)4.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.63sAntwortzeit (Durchschnitt)…
54Ausgabe-Token…
3,326Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.9Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.18sAntwortzeit (Maximum)4.46sAntwortzeit (Gesamt)8.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.18sAntwortzeit (Durchschnitt)…
208Ausgabe-Token…
465Denk-Token…
Rätsellösen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.52sAntwortzeit (Maximum)4.53sAntwortzeit (Gesamt)10.57sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.52sAntwortzeit (Durchschnitt)…
328Ausgabe-Token…
6,300Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)7.40sAntwortzeit (Maximum)7.79sAntwortzeit (Gesamt)14.81sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.40sAntwortzeit (Durchschnitt)…
169Ausgabe-Token…
5,904Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.1Durchschnittswert über alle Benchmark-Tests.…
4.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)5.35sAntwortzeit (Maximum)6.20sAntwortzeit (Gesamt)16.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.35sAntwortzeit (Durchschnitt)…
399Ausgabe-Token…
1,358Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.39sAntwortzeit (Maximum)12.39sAntwortzeit (Gesamt)12.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
12.39sAntwortzeit (Durchschnitt)…
183Ausgabe-Token…
5,384Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
2.8Durchschnittswert über alle Benchmark-Tests.…
1.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)27.71sAntwortzeit (Maximum)27.71sAntwortzeit (Gesamt)27.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
27.71sAntwortzeit (Durchschnitt)…
260Ausgabe-Token…
11,485Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.33sAntwortzeit (Maximum)17.33sAntwortzeit (Gesamt)17.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
17.33sAntwortzeit (Durchschnitt)…
308Ausgabe-Token…
904Denk-Token…
Allgemeinwissen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
-
-
-
-
-
-
-
-
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)25.52sAntwortzeit (Maximum)25.52sAntwortzeit (Gesamt)25.52sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
25.52sAntwortzeit (Durchschnitt)…
15Ausgabe-Token…
5,381Denk-Token…
Hunter AlphaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.