#112
DeepSeek
Veröffentlichung: 2026-04-24
Getestet am: 2026-04-24 09:19
deepseek/deepseek-v4-pro::none
(high)
(none)
3.1
Konsistenz
7.2
k. A.
Gesamte Ausgabe-Token
591
Eingabepreis
$1.740 / 1M
Ausgabepreis
$3.480 / 1M
Instabile Tests
6
Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).
Testverlauf
| Getestet am | Punktzahl | Zuverlässigkeit | Korrekte Tests | Gesamtkosten | Vergleichen |
|---|---|---|---|---|---|
| 2026-05-22 00:38 Suite geändert | 6.0 | 8.1 | $0.046 | Vergleichen | |
| 2026-04-29 14:46 Erneuter Test | 6.2 | 7.9 | $0.043 | Vergleichen | |
| 2026-04-24 09:19 Erster Lauf | 3.1 | k. A. | $0.009 | Aktueller Lauf |
Laufvergleich
| Lauf | Punktzahl | Konsistenz | Zuverlässigkeit | Korrekte Tests | Instabile Tests | Gesamte Ausgabe-Token | Gesamtkosten | Antwortzeit (Durchschnitt) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-24 09:19 · Erster Lauf | 3.1 | 7.2 | k. A. | 0/18 | 6 | 591 | $0.009 | 44.40s |
| 2026-05-22 00:38 · Suite geändert | 6.0 | 8.9 | 8.1 | 8/20 | 3 | 5,347 | $0.046 | 13.48s |
| Differenz | -2.9 | -1.7 | -8 | +3 | -4756 | -$0.037 | +30920ms |
Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.
Diagramme
Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.
Punktzahl vs Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Schnellvergleich
DeepSeek V4 PrononevsGemini 3.1 Flash LiteminimalDeepSeek V4 PrononevsMiMo-V2-OmnimediumDeepSeek V4 PrononevsKimi K2.5mediumDeepSeek V4 PrononevsGrok 4.20mediumDeepSeek V4 PrononevsGemini 3 Flash PreviewmediumDeepSeek V4 PrononevsGemini 3.5 FlashhighDeepSeek V4 PrononevsRing-2.6-1TmediumDeepSeek V4 PrononevsGemini 3.5 Flashlow
Kategorieaufschlüsselung
| Kategorie | Punktzahl | Konsistenz | Korrekte Tests |
|---|---|---|---|
| Anti-KI-Tricks | 3.1 | 10.0 | |
| Programmierung | 2.8 | 1.6 | |
| Kombiniert | 3.0 | 10.0 | |
| Datenanalyse und -extraktion | 2.8 | 1.6 | |
| Domänenspezifisch | 3.0 | 10.0 | |
| Allgemeine Intelligenz | 3.4 | 9.6 | |
| Befolgung von Anweisungen | 3.3 | 6.1 | |
| Rätsellösen | 3.6 | 4.3 | |
| Werkzeugaufrufe | 3.0 | 10.0 |