AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 3.1 Pro Preview

Zusammenfassung

DeepSeek V4 Pro vs Gemini 3.1 Pro Preview Benchmark-Vergleich: Gemini 3.1 Pro Preview führt beim Durchschnittsscore mit 9.2 vs 7.6. DeepSeek V4 Pro hat die niedrigeren Benchmark-Kosten mit $0.157 vs $1.054. Gemini 3.1 Pro Preview ist schneller mit 20.14s vs 77.20s, mit Erfolgsraten von 66.7% vs 90.5%.

Empfohlenes Modell: Gemini 3.1 Pro Preview - Es hat hier die beste Punktzahl (9.2) und antwortet etwa 3.8x schneller als DeepSeek V4 Pro.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-17

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Veröffentlichung: 2026-04-24	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Veröffentlichung: 2026-02-19

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Veröffentlichung: 2026-04-24	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Veröffentlichung: 2026-02-19
Punktzahl	7.6	9.2
Rang	#41	#7
Zuverlässigkeit	9.3	10.0
Konsistenz	7.0	10.0
Korrekte Tests
Erfolgsquote pro Versuch	66.7%	90.5%
Instabile Tests	8	0
Gesamtläufe	63	63
Kosten pro Ergebnis	1.742	5.546
Gesamtkosten	$0.157	$1.054
Eingabepreis	$0.435 / 1M	$2.000 / 1M
Ausgabepreis	$0.870 / 1M	$12.000 / 1M
Gesamte Eingabe-Token	38,726	41,617
Ausgabe-Token	6,334	1,977
Denk-Token	159,151	78,896
Antwortzeit (Durchschnitt)	77.20s	20.14s
Antwortzeit (Maximum)	416.76s	88.68s
Antwortzeit (Gesamt)	1621.17s	281.92s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#41 DeepSeek V4 Pro

high

Cost: $0.023
Time: 257.6s
Tokens: 14,870 tok

#7 Gemini 3.1 Pro Preview

medium

Cost: $0.115
Time: 87.2s
Tokens: 9,629 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	5.7	5.9	58.3%	2		25.70s	536	149	3,214
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	498	112	3,218

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	6.1	4.6	66.7%	2		243.00s	5,090	383	84,580
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0		40.17s	8,124	435	41,247

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		38.17s	14,060	454	5,836
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	17,240	432	9,281

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		25.03s	7,690	274	2,166
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	7,265	279	3,904

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.6	7.2	22.2%	1		151.46s	569	4,404	50,391
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	635	18	12,424

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		8.83s	471	115	1,013
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	490	108	1,179

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	7.8	6.6	83.3%	1		8.73s	627	66	2,726
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	621	72	2,236

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	6.9	4.9	77.8%	2		56.85s	591	178	2,563
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	570	235	3,128

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	9.8	10.0	100.0%	0		15.92s	8,909	295	701
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	6,018	274	982

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.0	10.0	0.0%	0		34.01s	183	16	5,961
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	156	12	1,297

Schnellvergleich

Vergleichspaar wechseln

DeepSeek V4 ProhighvsMiniMax M3medium DeepSeek V4 ProhighvsGrok Build 0.1medium DeepSeek V4 ProhighvsKimi K2.5medium DeepSeek V4 ProhighvsMercury 2medium DeepSeek V4 ProhighvsStep 3.7 Flashlow Claude Opus 4.6mediumvsDeepSeek V4 Prohigh DeepSeek V4 ProhighvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsGPT-5.4 Nanomedium DeepSeek V4 ProhighvsGrok 4.3medium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low DeepSeek V4 ProhighvsQwen3.5-122B-A10Bmedium DeepSeek V4 ProhighvsQwen3.6 Flashmedium