#47

DeepSeek V4 Pro

DeepSeek Veröffentlichung: 2026-04-24 Getestet am: 2026-04-26 10:50 deepseek/deepseek-v4-pro::high

(high) (none)

Zusammenfassung

DeepSeek V4 Pro erreicht 7.5 bei AI BENCHY und liegt auf #47. Das Modell hat 8.4 Zuverlässigkeit, 73.2% Erfolgsrate, $0.201 Gesamtkosten und 60.02s durchschnittliche Antwortzeit.

Punktzahl

7.5

Konsistenz

8.0

Zuverlässigkeit

8.4

Gesamtkosten (aktueller Preis)

$0.201

Gesamte Ausgabe-Token

57,875

Gesamte Eingabe-Token

Eingabepreis

$1.740 / 1M

Ausgabepreis

$3.480 / 1M

Korrekte Tests

Falsche Tests: 7

Erfolgsquote pro Versuch: 73.2%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

60.02s

Antwortzeit (Maximum): 358.35s

Antwortzeit (Gesamt): 1080.31s

Falsche Antwort: 4 Anweisungen nicht befolgt: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#47 DeepSeek V4 Pro

high

Kosten: $0.023
Zeit: 257.6s
Token: 14,870 tok

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Gesamtkosten	Vergleichen
2026-07-16 23:19 Neuer Test hinzugefügt	7.7	10.0	$0.200	Vergleichen
2026-06-16 15:31 Erneuter Test	7.6	9.3	$0.157	Vergleichen
2026-06-16 14:47 Suite geändert	8.1	9.6	$0.098	Vergleichen
2026-06-04 14:38 Neuer Test hinzugefügt	6.0	8.9	$0.079 ↓	Vergleichen
2026-05-22 00:54 Suite geändert	6.6	9.0	$0.212	Vergleichen
2026-04-29 14:47 Erneuter Test	7.5	9.3	$0.209	Vergleichen
2026-04-26 10:50 Erneuter Test	7.5	8.4	$0.201	Aktueller Lauf
2026-04-25 21:53 Erster Lauf	8.2	k. A.	$0.329	Vergleichen

Laufvergleich

Lauf	Punktzahl	Konsistenz	Zuverlässigkeit	Korrekte Tests	Instabile Tests	Gesamte Ausgabe-Token	Gesamtkosten	Antwortzeit (Durchschnitt)
2026-04-26 10:50 · Erneuter Test	7.5	8.0	8.4	11/18	4	57,875	$0.201	60.02s
2026-04-25 21:53 · Erster Lauf	8.2	9.2	k. A.	13/18	2	84,562	$0.329	72.92s
Differenz	-0.7	-1.2		-2	+2	-26687	-$0.128	-12905ms

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

DeepSeek V4 ProhighvsDeepSeek V4 Flashhigh DeepSeek V4 ProhighvsMiniMax M3medium DeepSeek V4 ProhighvsGPT-5.6 Lunahigh DeepSeek V4 ProhighvsGrok Build 0.1medium DeepSeek V4 ProhighvsClaude Opus 4.6medium DeepSeek V4 ProhighvsGPT-5.6 Lunamedium DeepSeek V4 ProhighvsGLM 5medium DeepSeek V4 ProhighvsNemotron 3 UltramediumKostenlos verfügbar DeepSeek V4 ProhighvsClaude Opus 4.8low DeepSeek V4 ProhighvsKimi K2.7 Codemedium

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	8.3	10.0
Programmierung	3.0	0.0
Kombiniert	10.0	10.0
Datenanalyse und -extraktion	10.0	10.0
Domänenspezifisch	3.2	6.9
Allgemeine Intelligenz	6.1	3.1
Befolgung von Anweisungen	10.0	10.0
Rätsellösen	8.0	7.0
Werkzeugaufrufe	10.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#47 DeepSeek V4 Pro

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle