#78

DeepSeek V4 Pro

DeepSeek Veröffentlichung: 2026-04-24 Getestet am: 2026-04-29 14:46 deepseek/deepseek-v4-pro::none

(high) (none)

Zusammenfassung

DeepSeek V4 Pro erreicht 6.2 bei AI BENCHY und liegt auf #78. Das Modell hat 7.9 Zuverlässigkeit, 48.2% Erfolgsrate, $0.043 Gesamtkosten und 14.01s durchschnittliche Antwortzeit.

Was DeepSeek V4 Pro besonders macht: Am stärksten ist es in Domänenspezifisch, wo es #2 erreicht; am schwächsten ist Anti-KI-Tricks mit #17. Die Benchmark-Gesamtkosten sind für diese Leistungsklasse ungewöhnlich niedrig.

Punktzahl

6.2

Konsistenz

8.7

Zuverlässigkeit

7.9

Gesamtkosten (aktueller Preis)

$0.043

Gesamte Ausgabe-Token

3,903

Gesamte Eingabe-Token

Eingabepreis

$0.435 / 1M

Ausgabepreis

$0.870 / 1M

Korrekte Tests

Falsche Tests: 11

Erfolgsquote pro Versuch: 48.2%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

14.01s

Antwortzeit (Maximum): 58.65s

Antwortzeit (Gesamt): 252.12s

Falsche Antwort: 7 Anweisungen nicht befolgt: 3 Zusätzliche Formatierung: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#78 DeepSeek V4 Pro

none

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Gesamtkosten	Vergleichen
2026-07-16 23:18 Neuer Test hinzugefügt	6.9	10.0	$0.096	Vergleichen
2026-06-16 15:17 Erneuter Test	7.2	9.9	$0.034	Vergleichen
2026-06-16 14:39 Suite geändert	7.2	9.9	$0.030	Vergleichen
2026-06-04 14:24 Neuer Test hinzugefügt	5.7	8.5	$0.025 ↓	Vergleichen
2026-05-22 00:38 Suite geändert	6.0	8.1	$0.046	Vergleichen
2026-04-29 14:46 Erneuter Test	6.2	7.9	$0.043	Aktueller Lauf
2026-04-24 09:19 Erster Lauf	3.1	k. A.	$0.009	Vergleichen

Laufvergleich

Lauf	Punktzahl	Konsistenz	Zuverlässigkeit	Korrekte Tests	Instabile Tests	Gesamte Ausgabe-Token	Gesamtkosten	Antwortzeit (Durchschnitt)
2026-04-29 14:46 · Erneuter Test	6.2	8.7	7.9	7/18	3	3,903	$0.043	14.01s
2026-05-22 00:38 · Suite geändert	6.0	8.9	8.1	8/20	3	5,347	$0.046	13.48s
Differenz	+0.1	-0.2	-0.2	-1	0	-1444	-$0.004	+529ms

Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

DeepSeek V4 PrononevsKAT-Coder-Pro V2.5medium DeepSeek V4 PrononevsGPT-5.6 Solnone DeepSeek V4 PrononevsSeed-2.0-Minimedium DeepSeek V4 PrononevsMiMo-V2.5-Promedium DeepSeek V4 PrononevsGemini 3.5 Flashnone DeepSeek V4 PrononevsQwen3.6 Flashmedium DeepSeek V4 PrononevsMercury 2medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsKimi K2.5medium DeepSeek V4 PrononevsGPT-5.5none

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	3.5	8.0
Programmierung	7.1	3.7
Kombiniert	9.5	10.0
Datenanalyse und -extraktion	10.0	10.0
Domänenspezifisch	5.3	10.0
Allgemeine Intelligenz	4.3	9.9
Befolgung von Anweisungen	6.3	10.0
Rätsellösen	6.0	7.1
Werkzeugaufrufe	10.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#78 DeepSeek V4 Pro

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle