#112

DeepSeek V4 Pro

DeepSeek Veröffentlichung: 2026-04-24 Getestet am: 2026-04-24 09:19 deepseek/deepseek-v4-pro::none

(high) (none)

Zusammenfassung

DeepSeek V4 Pro erreicht 3.1 bei AI BENCHY und liegt auf #112. Das Modell hat k. A. Zuverlässigkeit, 11.1% Erfolgsrate, $0.009 Gesamtkosten und 44.40s durchschnittliche Antwortzeit.

Was DeepSeek V4 Pro besonders macht: Die Benchmark-Gesamtkosten sind für diese Leistungsklasse ungewöhnlich niedrig.

Punktzahl

3.1

Konsistenz

7.2

Zuverlässigkeit

k. A.

Gesamtkosten (aktueller Preis)

$0.009

Gesamte Ausgabe-Token

591

Gesamte Eingabe-Token

Eingabepreis

$1.740 / 1M

Ausgabepreis

$3.480 / 1M

Korrekte Tests

Falsche Tests: 18

Erfolgsquote pro Versuch: 11.1%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

44.40s

Antwortzeit (Maximum): 125.71s

Antwortzeit (Gesamt): 577.18s

API-Fehler: 16 Anweisungen nicht befolgt: 1 Falsche Antwort: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#112 DeepSeek V4 Pro

none

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Gesamtkosten	Vergleichen
2026-07-16 23:18 Neuer Test hinzugefügt	6.9	10.0	$0.096	Vergleichen
2026-06-16 15:17 Erneuter Test	7.2	9.9	$0.034	Vergleichen
2026-06-16 14:39 Suite geändert	7.2	9.9	$0.030	Vergleichen
2026-06-04 14:24 Neuer Test hinzugefügt	5.7	8.5	$0.025 ↓	Vergleichen
2026-05-22 00:38 Suite geändert	6.0	8.1	$0.046	Vergleichen
2026-04-29 14:46 Erneuter Test	6.2	7.9	$0.043	Vergleichen
2026-04-24 09:19 Erster Lauf	3.1	k. A.	$0.009	Aktueller Lauf

Laufvergleich

Lauf	Punktzahl	Konsistenz	Zuverlässigkeit	Korrekte Tests	Instabile Tests	Gesamte Ausgabe-Token	Gesamtkosten	Antwortzeit (Durchschnitt)
2026-04-24 09:19 · Erster Lauf	3.1	7.2	k. A.	0/18	6	591	$0.009	44.40s
2026-05-22 00:38 · Suite geändert	6.0	8.9	8.1	8/20	3	5,347	$0.046	13.48s
Differenz	-2.9	-1.7		-8	+3	-4756	-$0.037	+30920ms

Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

DeepSeek V4 PrononevsKAT-Coder-Pro V2.5medium DeepSeek V4 PrononevsGPT-5.6 Solnone DeepSeek V4 PrononevsSeed-2.0-Minimedium DeepSeek V4 PrononevsMiMo-V2.5-Promedium DeepSeek V4 PrononevsGemini 3.5 Flashnone DeepSeek V4 PrononevsQwen3.6 Flashmedium DeepSeek V4 PrononevsMercury 2medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsKimi K2.5medium DeepSeek V4 PrononevsGPT-5.5none

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	3.1	10.0
Programmierung	2.8	1.6
Kombiniert	3.0	10.0
Datenanalyse und -extraktion	2.8	1.6
Domänenspezifisch	3.0	10.0
Allgemeine Intelligenz	3.4	9.6
Befolgung von Anweisungen	3.3	6.1
Rätsellösen	3.6	4.3
Werkzeugaufrufe	3.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#112 DeepSeek V4 Pro

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle