AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs DeepSeek: DeepSeek V4 Pro

Zusammenfassung

Claude Sonnet 5 vs DeepSeek V4 Pro Benchmark-Vergleich: Claude Sonnet 5 führt beim Durchschnittsscore mit 7.9 vs 7.6. DeepSeek V4 Pro hat die niedrigeren Benchmark-Kosten mit $0.157 vs $0.550. Claude Sonnet 5 ist schneller mit 9.94s vs 77.20s, mit Erfolgsraten von 79.4% vs 66.7%.

Empfohlenes Modell: Claude Sonnet 5 - Es hat hier die beste Punktzahl (7.9) und antwortet etwa 7.8x schneller als DeepSeek V4 Pro.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-30

Metrik	Claude Sonnet 5 Claude Sonnet 5 medium Veröffentlichung: 2026-06-30	DeepSeek V4 Pro DeepSeek V4 Pro high Veröffentlichung: 2026-04-24

Metrik	Claude Sonnet 5 Claude Sonnet 5 medium Veröffentlichung: 2026-06-30	DeepSeek V4 Pro DeepSeek V4 Pro high Veröffentlichung: 2026-04-24
Punktzahl	7.9	7.6
Rang	#30	#43
Zuverlässigkeit	10.0	9.3
Konsistenz	9.0	7.0
Korrekte Tests
Erfolgsquote pro Versuch	79.4%	66.7%
Instabile Tests	3	8
Gesamtläufe	63	63
Kosten pro Ergebnis	3.662	1.742
Gesamtkosten	$0.550	$0.157
Eingabepreis	$2.000 / 1M	$0.435 / 1M
Ausgabepreis	$10.000 / 1M	$0.870 / 1M
Gesamte Eingabe-Token	67,416	38,726
Ausgabe-Token	34,012	6,334
Denk-Token	7,673	159,151
Antwortzeit (Durchschnitt)	9.94s	77.20s
Antwortzeit (Maximum)	56.94s	416.76s
Antwortzeit (Gesamt)	208.71s	1621.17s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium

Kosten: $0.007
Zeit: 6.4s
Token: 832 tok

#43 DeepSeek V4 Pro

high

Kosten: $0.023
Zeit: 257.6s
Token: 14,870 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	10.0	10.0	100.0%	0		3.80s	834	1,220	446
DeepSeek V4 Pro	5.7	5.9	58.3%	2		25.70s	536	149	3,214

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	9.0	7.9	88.9%	1		17.28s	10,590	13,153	2,379
DeepSeek V4 Pro	6.1	4.6	66.7%	2		243.00s	5,090	383	84,580

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	4.5	2.1	66.7%	1		37.01s	29,394	4,848	2,170
DeepSeek V4 Pro	10.0	10.0	100.0%	0		38.17s	14,060	454	5,836

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	10.0	10.0	100.0%	0		3.16s	10,503	312	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		25.03s	7,690	274	2,166

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	7.7	10.0	66.7%	0		20.38s	975	12,140	1,994
DeepSeek V4 Pro	3.6	7.2	22.2%	1		151.46s	569	4,404	50,391

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	4.8	3.2	33.3%	1		4.32s	708	264	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		8.83s	471	115	1,013

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	9.9	10.0	100.0%	0		3.10s	909	318	269
DeepSeek V4 Pro	7.8	6.6	83.3%	1		8.73s	627	66	2,726

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	7.7	10.0	66.7%	0		2.98s	894	407	121
DeepSeek V4 Pro	6.9	4.9	77.8%	2		56.85s	591	178	2,563

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	10.0	10.0	100.0%	0		10.70s	12,351	433	90
DeepSeek V4 Pro	9.8	10.0	100.0%	0		15.92s	8,909	295	701

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	3.0	10.0	0.0%	0		7.06s	258	917	204
DeepSeek V4 Pro	3.0	10.0	0.0%	0		34.01s	183	16	5,961

Schnellvergleich

Vergleichspaar wechseln

DeepSeek V4 ProhighvsMiniMax M3medium DeepSeek V4 ProhighvsGrok Build 0.1medium DeepSeek V4 ProhighvsKimi K2.5medium DeepSeek V4 ProhighvsMercury 2medium DeepSeek V4 ProhighvsStep 3.7 Flashlow Claude Opus 4.6mediumvsDeepSeek V4 Prohigh DeepSeek V4 ProhighvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsGPT-5.4 Nanomedium DeepSeek V4 ProhighvsGrok 4.3medium Claude Opus 4.8lowvsDeepSeek V4 Prohigh DeepSeek V4 ProhighvsQwen3.5-122B-A10Bmedium DeepSeek V4 ProhighvsQwen3.6 Flashmedium