DeepSeek: DeepSeek V4 Pro vs Google: Gemma 4 26B A4B
Zusammenfassung
DeepSeek V4 Pro vs Gemma 4 26B A4B Benchmark-Vergleich: DeepSeek V4 Pro führt beim Durchschnittsscore mit 7.6 vs 7.2. Gemma 4 26B A4B hat die niedrigeren Benchmark-Kosten mit $0.045 vs $0.157. Gemma 4 26B A4B ist schneller mit 63.41s vs 77.20s, mit Erfolgsraten von 66.7% vs 69.8%.
Empfohlenes Modell: Gemma 4 26B A4B - Die Punktzahl bleibt nah an der besten hier (7.2 vs 7.6) und es kostet etwa 3.6x weniger als DeepSeek V4 Pro.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02
9.3Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
7.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
9.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Keine Antwort: 2Zeitüberschreitung: 2Antwortzeit (Durchschnitt)63.41sAntwortzeit (Maximum)369.32sAntwortzeit (Gesamt)1268.28sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
69.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
8Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
63Gesamtläufe…
63Gesamtläufe…
Kosten pro Ergebnis
1.742Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.361Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
Gesamtkosten
$0.157Gesamtkosten (aktueller Preis)…
$0.045Gesamtkosten (aktueller Preis)…
Eingabepreis
$0.435 / 1MEingabepreis…
$0.060 / 1MEingabepreis…
Ausgabepreis
$0.870 / 1MAusgabepreis…
$0.330 / 1MAusgabepreis…
Gesamte Eingabe-Token
38,726Gesamte Eingabe-Token…
40,252Gesamte Eingabe-Token…
Ausgabe-Token
6,334Ausgabe-Token…
28,000Ausgabe-Token…
Denk-Token
159,151Denk-Token…
100,490Denk-Token…
Antwortzeit (Durchschnitt)
77.20sAntwortzeit (Durchschnitt)…
63.41sAntwortzeit (Durchschnitt)…
Antwortzeit (Maximum)
416.76sAntwortzeit (Maximum)…
369.32sAntwortzeit (Maximum)…
Antwortzeit (Gesamt)
1621.17sAntwortzeit (Gesamt)…
1268.28sAntwortzeit (Gesamt)…
Generierungs-Showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
5.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
58.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Keine Antwort: 1Antwortzeit (Durchschnitt)25.70sAntwortzeit (Maximum)48.19sAntwortzeit (Gesamt)102.80sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.20sAntwortzeit (Maximum)9.64sAntwortzeit (Gesamt)24.78sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)243.00sAntwortzeit (Maximum)416.76sAntwortzeit (Gesamt)729.00sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)272.54sAntwortzeit (Maximum)369.32sAntwortzeit (Gesamt)817.61sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)38.17sAntwortzeit (Maximum)38.17sAntwortzeit (Gesamt)38.17sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)73.55sAntwortzeit (Maximum)73.55sAntwortzeit (Gesamt)73.55sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)25.03sAntwortzeit (Maximum)27.49sAntwortzeit (Gesamt)50.06sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.51sAntwortzeit (Maximum)20.57sAntwortzeit (Gesamt)33.02sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)151.46sAntwortzeit (Maximum)387.23sAntwortzeit (Gesamt)454.38sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
22.2%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)23.62sAntwortzeit (Maximum)27.00sAntwortzeit (Gesamt)47.23sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.83sAntwortzeit (Maximum)8.83sAntwortzeit (Gesamt)8.83sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)29.76sAntwortzeit (Maximum)29.76sAntwortzeit (Gesamt)29.76sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
6.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)8.73sAntwortzeit (Maximum)9.53sAntwortzeit (Gesamt)17.45sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.54sAntwortzeit (Maximum)21.25sAntwortzeit (Gesamt)35.08sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.9Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
77.8%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)56.85sAntwortzeit (Maximum)146.68sAntwortzeit (Gesamt)170.55sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.79sAntwortzeit (Maximum)6.85sAntwortzeit (Gesamt)17.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.92sAntwortzeit (Maximum)15.92sAntwortzeit (Gesamt)15.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.01sAntwortzeit (Maximum)9.01sAntwortzeit (Gesamt)9.01sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)34.01sAntwortzeit (Maximum)34.01sAntwortzeit (Gesamt)34.01sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)180.87sAntwortzeit (Maximum)180.87sAntwortzeit (Gesamt)180.87sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…