DeepSeek: DeepSeek V4 Flash vs Gemini 3 PRO Preview
Zusammenfassung
DeepSeek V4 Flash vs Gemini 3 PRO Preview Benchmark-Vergleich: DeepSeek V4 Flash führt beim Durchschnittsscore mit 8.3 vs 6.2. DeepSeek V4 Flash hat die niedrigeren Benchmark-Kosten mit $0.027 vs $0.385. Gemini 3 PRO Preview ist schneller mit 9.05s vs 45.85s, mit Erfolgsraten von 74.6% vs 66.7%.
Empfohlenes Modell: DeepSeek V4 Flash - Es hat hier die beste Punktzahl (8.3) und kostet etwa 14.7x weniger als Gemini 3 PRO Preview.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18
Gemini 3 PRO PreviewGemini 3 PRO PreviewmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-18
Gemini 3 PRO PreviewGemini 3 PRO PreviewmediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2025-11-18
Punktzahl
8.3Durchschnittswert über alle Benchmark-Tests.…
6.2Durchschnittswert über alle Benchmark-Tests.…
Rang
#23
#91
Zuverlässigkeit
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
k. A.Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
8.5Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 6Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)45.85sAntwortzeit (Maximum)218.13sAntwortzeit (Gesamt)962.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 4Falsche Antwort: 3Antwortzeit (Durchschnitt)9.05sAntwortzeit (Maximum)26.24sAntwortzeit (Gesamt)90.53sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
74.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
4Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
0.299Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
1.406Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.027Gesamtkosten (aktueller Preis)…
$0.385Gesamtkosten (aktueller Preis)…
Eingabepreis
$0.090 / 1MEingabepreis…
$9.506 / 1MEingabepreis…
Ausgabepreis
$0.180 / 1MAusgabepreis…
$9.506 / 1MAusgabepreis…
Gesamte Eingabe-Token
39,745Gesamte Eingabe-Token…
28,848Gesamte Eingabe-Token…
Ausgabe-Token
10,310Ausgabe-Token…
1,490Ausgabe-Token…
Denk-Token
123,501Denk-Token…
10,102Denk-Token…
Antwortzeit (Durchschnitt)
45.85sAntwortzeit (Durchschnitt)…
9.05sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
218.13sAntwortzeit (Maximum)…
26.24sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
962.79sAntwortzeit (Gesamt)…
90.53sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#23 DeepSeek V4 Flash
high
Kosten
$0.003
Zeit
93.1s
Token
7,926 tok
#91 Gemini 3 PRO Preview
medium
No endpoints found for google/gemini-3-pro-preview.
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
75.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)28.51sAntwortzeit (Maximum)39.73sAntwortzeit (Gesamt)114.05sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
28.51sAntwortzeit (Durchschnitt)…
540Gesamte Eingabe-Token…
140Ausgabe-Token…
7,770Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.99sAntwortzeit (Maximum)26.24sAntwortzeit (Gesamt)29.99sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)50.60sAntwortzeit (Maximum)62.48sAntwortzeit (Gesamt)151.79sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
50.60sAntwortzeit (Durchschnitt)…
7,279Gesamte Eingabe-Token…
395Ausgabe-Token…
34,862Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 3Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)76.57sAntwortzeit (Maximum)76.57sAntwortzeit (Gesamt)76.57sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
76.57sAntwortzeit (Durchschnitt)…
14,016Gesamte Eingabe-Token…
465Ausgabe-Token…
7,347Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.37sAntwortzeit (Maximum)10.37sAntwortzeit (Gesamt)10.37sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.03sAntwortzeit (Maximum)30.49sAntwortzeit (Gesamt)56.07sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
28.03sAntwortzeit (Durchschnitt)…
7,290Gesamte Eingabe-Token…
201Ausgabe-Token…
1,179Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.84sAntwortzeit (Maximum)10.84sAntwortzeit (Gesamt)10.84sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.5%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)100.31sAntwortzeit (Maximum)218.13sAntwortzeit (Gesamt)300.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
100.31sAntwortzeit (Durchschnitt)…
666Gesamte Eingabe-Token…
27Ausgabe-Token…
59,249Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
5.3Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.01sAntwortzeit (Maximum)7.01sAntwortzeit (Gesamt)7.01sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
3.1Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)25.15sAntwortzeit (Maximum)25.15sAntwortzeit (Gesamt)25.15sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
25.15sAntwortzeit (Durchschnitt)…
471Gesamte Eingabe-Token…
79Ausgabe-Token…
632Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.34sAntwortzeit (Maximum)9.34sAntwortzeit (Gesamt)9.34sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.36sAntwortzeit (Maximum)19.53sAntwortzeit (Gesamt)30.73sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
15.36sAntwortzeit (Durchschnitt)…
627Gesamte Eingabe-Token…
63Ausgabe-Token…
1,622Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
9.8Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)3.26sAntwortzeit (Gesamt)3.26sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)26.11sAntwortzeit (Maximum)32.37sAntwortzeit (Gesamt)78.32sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
26.11sAntwortzeit (Durchschnitt)…
594Gesamte Eingabe-Token…
196Ausgabe-Token…
1,767Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.88sAntwortzeit (Maximum)4.23sAntwortzeit (Gesamt)7.77sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)74.73sAntwortzeit (Maximum)74.73sAntwortzeit (Gesamt)74.73sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
74.73sAntwortzeit (Durchschnitt)…
8,079Gesamte Eingabe-Token…
228Ausgabe-Token…
542Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.96sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)11.96sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)54.46sAntwortzeit (Maximum)54.46sAntwortzeit (Gesamt)54.46sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
54.46sAntwortzeit (Durchschnitt)…
183Gesamte Eingabe-Token…
8,516Ausgabe-Token…
8,531Denk-Token…
Gemini 3 PRO PreviewArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…