Benchmark-Vergleich Grok 4.20 Beta vs Grok 4.20 Multi Agent Beta vs Grok 4.1 Fast vs Gemini 3 Flash PreviewGemini 3 Flash Preview führt bei Punktzahl mit 9.6. Grok 4.1 Fast führt bei Zuverlässigkeit mit 10.0. Grok 4.1 Fast hat den niedrigsten Gesamtkosten mit $0.069. Grok 4.20 Multi Agent Beta ist mit 9.69s am schnellsten.
Empfohlenes Modell: Gemini 3 Flash Preview - Es hat hier die beste Punktzahl (9.6) und kostet etwa 3.2x weniger als die anderen Modelle in diesem Vergleich.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-12
Metrik
Grok 4.20 BetaGrok 4.20 BetamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-12
Grok 4.1 FastGrok 4.1 FastmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-19
Grok 4.20 BetaGrok 4.20 BetamediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-03-12
Grok 4.1 FastGrok 4.1 FastmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-19
k. A.Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
k. A.Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
9.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
7.3Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
9.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)9.75sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)175.48sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 4Falsche Antwort: 4Keine Antwort: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)23.85sAntwortzeit (Maximum)121.79sAntwortzeit (Gesamt)286.16sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)18.64sAntwortzeit (Maximum)117.26sAntwortzeit (Gesamt)391.35sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
81.5%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
59.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
61.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
98.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
5Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
6Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
52Gesamtläufe…
52Gesamtläufe…
57Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
4.505Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
62.923Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.642Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
3.335Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.750Gesamtkosten (aktueller Preis)…
$5.599Gesamtkosten (aktueller Preis)…
$0.069Gesamtkosten (aktueller Preis)…
$0.667Gesamtkosten (aktueller Preis)…
Eingabepreis
$5.805 / 1MEingabepreis…
$4.235 / 1MEingabepreis…
$0.484 / 1MEingabepreis…
$0.500 / 1MEingabepreis…
Ausgabepreis
$5.805 / 1MAusgabepreis…
$4.235 / 1MAusgabepreis…
$0.484 / 1MAusgabepreis…
$3.000 / 1MAusgabepreis…
Gesamte Eingabe-Token
35,955Gesamte Eingabe-Token…
721,952Gesamte Eingabe-Token…
42,845Gesamte Eingabe-Token…
37,017Gesamte Eingabe-Token…
Ausgabe-Token
1,647Ausgabe-Token…
294,668Ausgabe-Token…
2,006Ausgabe-Token…
2,006Ausgabe-Token…
Denk-Token
91,565Denk-Token…
305,374Denk-Token…
96,334Denk-Token…
214,153Denk-Token…
Antwortzeit (Durchschnitt)
9.75sAntwortzeit (Durchschnitt)…
9.69sAntwortzeit (Durchschnitt)…
23.85sAntwortzeit (Durchschnitt)…
18.64sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
31.36sAntwortzeit (Maximum)…
35.28sAntwortzeit (Maximum)…
121.79sAntwortzeit (Maximum)…
117.26sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
175.48sAntwortzeit (Gesamt)…
155.07sAntwortzeit (Gesamt)…
286.16sAntwortzeit (Gesamt)…
391.35sAntwortzeit (Gesamt)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#8 Grok 4.20 Beta
medium
Cost
$0.034
Time
91.0s
Tokens
13,523 tok
#57 Grok 4.20 Multi Agent Beta
medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok
#105 Grok 4.1 Fast
medium
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
Cost
$0.000
Time
0.1s
Tokens
0 tok
#2 Gemini 3 Flash Preview
medium
Cost
$0.010
Time
17.9s
Tokens
3,236 tok
Punktzahl
-
Cost
-
Time
-
Tokens
-
Top-Modelle nach Score
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Kategorieaufschlüsselung
Anti-KI-Tricks
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.7Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
91.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.16sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)12.65sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.16sAntwortzeit (Durchschnitt)…
2,010Gesamte Eingabe-Token…
268Ausgabe-Token…
7,583Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.9Durchschnittswert über alle Benchmark-Tests.…
5.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
75.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)3.46sAntwortzeit (Maximum)4.38sAntwortzeit (Gesamt)13.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.46sAntwortzeit (Durchschnitt)…
90,925Gesamte Eingabe-Token…
33,706Ausgabe-Token…
33,077Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.7Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
91.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)5.65sAntwortzeit (Gesamt)7.62sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.88sAntwortzeit (Maximum)5.73sAntwortzeit (Gesamt)15.53sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.88sAntwortzeit (Durchschnitt)…
494Gesamte Eingabe-Token…
330Ausgabe-Token…
3,216Denk-Token…
Programmierung
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.36sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)31.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
31.36sAntwortzeit (Durchschnitt)…
360Gesamte Eingabe-Token…
81Ausgabe-Token…
3,987Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)27.11sAntwortzeit (Maximum)27.11sAntwortzeit (Gesamt)27.11sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
27.11sAntwortzeit (Durchschnitt)…
13,212Gesamte Eingabe-Token…
86Ausgabe-Token…
13,141Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
2.3Durchschnittswert über alle Benchmark-Tests.…
1.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)23.58sAntwortzeit (Maximum)23.58sAntwortzeit (Gesamt)23.58sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)84.40sAntwortzeit (Maximum)117.26sAntwortzeit (Gesamt)253.21sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
84.40sAntwortzeit (Durchschnitt)…
8,122Gesamte Eingabe-Token…
462Ausgabe-Token…
161,084Denk-Token…
Kombiniert
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.93sAntwortzeit (Maximum)20.93sAntwortzeit (Gesamt)20.93sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
20.93sAntwortzeit (Durchschnitt)…
12,909Gesamte Eingabe-Token…
227Ausgabe-Token…
12,212Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
0msAntwortzeit (Durchschnitt)…
0Gesamte Eingabe-Token…
0Ausgabe-Token…
0Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)37.64sAntwortzeit (Maximum)37.64sAntwortzeit (Gesamt)37.64sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)22.42sAntwortzeit (Maximum)22.42sAntwortzeit (Gesamt)22.42sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
22.42sAntwortzeit (Durchschnitt)…
12,873Gesamte Eingabe-Token…
351Ausgabe-Token…
10,485Denk-Token…
Datenanalyse und -extraktion
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.01sAntwortzeit (Maximum)4.27sAntwortzeit (Gesamt)8.02sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.01sAntwortzeit (Durchschnitt)…
7,761Gesamte Eingabe-Token…
180Ausgabe-Token…
5,281Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.54sAntwortzeit (Maximum)7.51sAntwortzeit (Gesamt)11.08sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.54sAntwortzeit (Durchschnitt)…
97,232Gesamte Eingabe-Token…
25,306Ausgabe-Token…
25,051Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.63sAntwortzeit (Maximum)6.63sAntwortzeit (Gesamt)6.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.43sAntwortzeit (Maximum)6.18sAntwortzeit (Gesamt)10.86sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.43sAntwortzeit (Durchschnitt)…
7,548Gesamte Eingabe-Token…
279Ausgabe-Token…
4,893Denk-Token…
Domänenspezifisch
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)21.33sAntwortzeit (Maximum)24.21sAntwortzeit (Gesamt)64.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
21.33sAntwortzeit (Durchschnitt)…
1,764Gesamte Eingabe-Token…
251Ausgabe-Token…
40,255Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
2.9Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
11.1%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)24.67sAntwortzeit (Maximum)35.28sAntwortzeit (Gesamt)74.02sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
24.67sAntwortzeit (Durchschnitt)…
328,253Gesamte Eingabe-Token…
164,609Ausgabe-Token…
163,647Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.8Durchschnittswert über alle Benchmark-Tests.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)121.79sAntwortzeit (Maximum)121.79sAntwortzeit (Gesamt)121.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.27sAntwortzeit (Maximum)34.09sAntwortzeit (Gesamt)45.80sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
15.27sAntwortzeit (Durchschnitt)…
633Gesamte Eingabe-Token…
12Ausgabe-Token…
21,684Denk-Token…
Allgemeine Intelligenz
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.78sAntwortzeit (Maximum)5.78sAntwortzeit (Gesamt)5.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.78sAntwortzeit (Durchschnitt)…
825Gesamte Eingabe-Token…
72Ausgabe-Token…
3,440Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.8Durchschnittswert über alle Benchmark-Tests.…
2.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.40sAntwortzeit (Maximum)6.40sAntwortzeit (Gesamt)6.40sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.40sAntwortzeit (Durchschnitt)…
41,387Gesamte Eingabe-Token…
15,848Ausgabe-Token…
15,746Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.2Durchschnittswert über alle Benchmark-Tests.…
9.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.25sAntwortzeit (Maximum)16.25sAntwortzeit (Gesamt)16.25sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.19sAntwortzeit (Maximum)5.19sAntwortzeit (Gesamt)5.19sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.19sAntwortzeit (Durchschnitt)…
486Gesamte Eingabe-Token…
72Ausgabe-Token…
1,905Denk-Token…
Befolgung von Anweisungen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.8Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.89sAntwortzeit (Maximum)5.89sAntwortzeit (Gesamt)9.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.89sAntwortzeit (Durchschnitt)…
1,362Gesamte Eingabe-Token…
57Ausgabe-Token…
7,123Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.8Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.52sAntwortzeit (Maximum)3.80sAntwortzeit (Gesamt)7.04sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.52sAntwortzeit (Durchschnitt)…
43,923Gesamte Eingabe-Token…
19,752Ausgabe-Token…
19,617Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.63sAntwortzeit (Maximum)4.63sAntwortzeit (Gesamt)4.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.04sAntwortzeit (Maximum)4.70sAntwortzeit (Gesamt)8.08sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.04sAntwortzeit (Durchschnitt)…
615Gesamte Eingabe-Token…
72Ausgabe-Token…
2,709Denk-Token…
Rätsellösen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.52sAntwortzeit (Maximum)4.53sAntwortzeit (Gesamt)10.57sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.52sAntwortzeit (Durchschnitt)…
1,689Gesamte Eingabe-Token…
328Ausgabe-Token…
6,300Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.7Durchschnittswert über alle Benchmark-Tests.…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)5.19sAntwortzeit (Maximum)5.49sAntwortzeit (Gesamt)15.57sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
5.19sAntwortzeit (Durchschnitt)…
107,020Gesamte Eingabe-Token…
35,361Ausgabe-Token…
35,095Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.4%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)7.40sAntwortzeit (Maximum)7.79sAntwortzeit (Gesamt)14.81sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.05sAntwortzeit (Maximum)5.64sAntwortzeit (Gesamt)12.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.05sAntwortzeit (Durchschnitt)…
558Gesamte Eingabe-Token…
183Ausgabe-Token…
4,365Denk-Token…
Werkzeugaufrufe
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.39sAntwortzeit (Maximum)12.39sAntwortzeit (Gesamt)12.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
12.39sAntwortzeit (Durchschnitt)…
7,275Gesamte Eingabe-Token…
183Ausgabe-Token…
5,384Denk-Token…
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
0msAntwortzeit (Durchschnitt)…
0Gesamte Eingabe-Token…
0Ausgabe-Token…
0Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
2.8Durchschnittswert über alle Benchmark-Tests.…
1.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)27.71sAntwortzeit (Maximum)27.71sAntwortzeit (Gesamt)27.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.60sAntwortzeit (Maximum)12.60sAntwortzeit (Gesamt)12.60sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
12.60sAntwortzeit (Durchschnitt)…
5,532Gesamte Eingabe-Token…
234Ausgabe-Token…
1,487Denk-Token…
Allgemeinwissen
Punktzahl
Konsistenz
Erfolgsquote pro Versuch
Instabile Tests
Korrekte Tests
Antwortzeit (Durchschnitt)
Eingabe-Token
Ausgabe-Token
Denk-Token
Grok 4.20 BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
-
-
-
-
-
-
-
-
-
Grok 4.20 Multi Agent BetaArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
-
-
-
-
-
-
-
-
-
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)25.52sAntwortzeit (Maximum)25.52sAntwortzeit (Gesamt)25.52sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.50sAntwortzeit (Maximum)5.50sAntwortzeit (Gesamt)5.50sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…