Gemini 3.5 Flash vs Grok 4.1 Fast Benchmark-Vergleich: Gemini 3.5 Flash führt beim Durchschnittsscore mit 9.8 vs 4.0. Grok 4.1 Fast hat die niedrigeren Benchmark-Kosten mit $0.008 vs $1.115. Grok 4.1 Fast ist schneller mit 1.62s vs 8.84s, mit Erfolgsraten von 96.8% vs 20.6%.
Empfohlenes Modell: Gemini 3.5 Flash - Es hat die stärkste Punktzahl in diesem Vergleich (9.8) und die beste Gesamtbalance aus Kosten und Antwortzeit über alle 2 Modelle.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02
Grok 4.1 FastGrok 4.1 FastnoneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-19
Grok 4.1 FastGrok 4.1 FastnoneArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-19
Punktzahl
9.8Durchschnittswert über alle Benchmark-Tests.…
4.0Durchschnittswert über alle Benchmark-Tests.…
Rang
#1
#166
Zuverlässigkeit
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
9.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
7.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.84sAntwortzeit (Maximum)34.82sAntwortzeit (Gesamt)185.57sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 13Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)1.62sAntwortzeit (Maximum)5.51sAntwortzeit (Gesamt)19.48sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
96.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
20.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
3Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
57Gesamtläufe…
Kosten pro Ergebnis
5.575Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.273Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$1.115Gesamtkosten (aktueller Preis)…
$0.008Gesamtkosten (aktueller Preis)…
Eingabepreis
$1.500 / 1MEingabepreis…
$0.202 / 1MEingabepreis…
Ausgabepreis
$9.000 / 1MAusgabepreis…
$0.202 / 1MAusgabepreis…
Gesamte Eingabe-Token
37,594Gesamte Eingabe-Token…
36,608Gesamte Eingabe-Token…
Ausgabe-Token
1,975Ausgabe-Token…
1,723Ausgabe-Token…
Denk-Token
115,638Denk-Token…
0Denk-Token…
Antwortzeit (Durchschnitt)
8.84sAntwortzeit (Durchschnitt)…
1.62sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
34.82sAntwortzeit (Maximum)…
5.51sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
185.57sAntwortzeit (Gesamt)…
19.48sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#1 Gemini 3.5 Flash
high
Kosten
$0.208
Zeit
118.2s
Token
23,158 tok
#166 Grok 4.1 Fast
none
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.57sAntwortzeit (Maximum)3.60sAntwortzeit (Gesamt)10.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
2.57sAntwortzeit (Durchschnitt)…
492Gesamte Eingabe-Token…
174Ausgabe-Token…
4,997Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.2Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.73sAntwortzeit (Gesamt)2.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)22.96sAntwortzeit (Maximum)34.82sAntwortzeit (Gesamt)68.88sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
22.96sAntwortzeit (Durchschnitt)…
8,118Gesamte Eingabe-Token…
456Ausgabe-Token…
47,129Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
1.8Durchschnittswert über alle Benchmark-Tests.…
1.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
11.1%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.79sAntwortzeit (Maximum)1.79sAntwortzeit (Gesamt)1.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)22.37sAntwortzeit (Maximum)22.37sAntwortzeit (Gesamt)22.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
22.37sAntwortzeit (Durchschnitt)…
12,873Gesamte Eingabe-Token…
351Ausgabe-Token…
16,323Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.33sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)3.33sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.43sAntwortzeit (Maximum)8.51sAntwortzeit (Gesamt)12.87sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.43sAntwortzeit (Durchschnitt)…
7,548Gesamte Eingabe-Token…
279Ausgabe-Token…
8,466Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)943msAntwortzeit (Maximum)943msAntwortzeit (Gesamt)943msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
77.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)14.09sAntwortzeit (Maximum)22.00sAntwortzeit (Gesamt)42.27sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
14.09sAntwortzeit (Durchschnitt)…
633Gesamte Eingabe-Token…
12Ausgabe-Token…
24,721Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.9Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.06sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)1.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.63sAntwortzeit (Maximum)3.63sAntwortzeit (Gesamt)3.63sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.63sAntwortzeit (Durchschnitt)…
486Gesamte Eingabe-Token…
115Ausgabe-Token…
1,650Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.4Durchschnittswert über alle Benchmark-Tests.…
9.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.08sAntwortzeit (Maximum)1.08sAntwortzeit (Gesamt)1.08sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.35sAntwortzeit (Maximum)3.42sAntwortzeit (Gesamt)6.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.35sAntwortzeit (Durchschnitt)…
615Gesamte Eingabe-Token…
70Ausgabe-Token…
3,799Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)685msAntwortzeit (Maximum)685msAntwortzeit (Gesamt)685msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.23sAntwortzeit (Maximum)3.68sAntwortzeit (Gesamt)9.69sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.23sAntwortzeit (Durchschnitt)…
558Gesamte Eingabe-Token…
241Ausgabe-Token…
4,940Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.10sAntwortzeit (Maximum)1.36sAntwortzeit (Gesamt)2.21sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.96sAntwortzeit (Maximum)4.96sAntwortzeit (Gesamt)4.96sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.96sAntwortzeit (Durchschnitt)…
6,115Gesamte Eingabe-Token…
265Ausgabe-Token…
1,608Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
2.8Durchschnittswert über alle Benchmark-Tests.…
1.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.51sAntwortzeit (Maximum)5.51sAntwortzeit (Gesamt)5.51sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.94sAntwortzeit (Maximum)3.94sAntwortzeit (Gesamt)3.94sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.94sAntwortzeit (Durchschnitt)…
156Gesamte Eingabe-Token…
12Ausgabe-Token…
2,005Denk-Token…
Grok 4.1 FastArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)731msAntwortzeit (Maximum)731msAntwortzeit (Gesamt)731msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…