AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 3.1 Flash Lite Preview

Zusammenfassung

DeepSeek V4 Pro vs Gemini 3.1 Flash Lite Preview Benchmark-Vergleich: Gemini 3.1 Flash Lite Preview führt beim Durchschnittsscore mit 7.8 vs 7.2. DeepSeek V4 Pro hat die niedrigeren Benchmark-Kosten mit $0.034 vs $0.068. Gemini 3.1 Flash Lite Preview ist schneller mit 3.96s vs 6.41s, mit Erfolgsraten von 52.4% vs 61.9%.

Empfohlenes Modell: DeepSeek V4 Pro - Die Punktzahl bleibt nah an der besten hier (7.2 vs 7.8) und es kostet etwa 2.0x weniger als Gemini 3.1 Flash Lite Preview.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Veröffentlichung: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro none Veröffentlichung: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03
Punktzahl	7.2	7.8
Rang	#58	#32
Zuverlässigkeit	9.9	10.0
Konsistenz	8.8	10.0
Korrekte Tests
Erfolgsquote pro Versuch	52.4%	61.9%
Instabile Tests	3	0
Gesamtläufe	63	63
Kosten pro Ergebnis	0.333	0.523
Gesamtkosten	$0.034	$0.068
Eingabepreis	$0.435 / 1M	$0.250 / 1M
Ausgabepreis	$0.870 / 1M	$1.500 / 1M
Gesamte Eingabe-Token	53,558	37,786
Ausgabe-Token	11,424	2,210
Denk-Token	0	36,744
Antwortzeit (Durchschnitt)	6.41s	3.96s
Antwortzeit (Maximum)	30.09s	14.93s
Antwortzeit (Gesamt)	134.66s	83.06s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 DeepSeek V4 Pro

none

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

#32 Gemini 3.1 Flash Lite Preview

medium

Kosten: $0.003
Zeit: 5.2s
Token: 1,944 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	5.6	10.0	33.3%	0		13.38s	7,275	5,500	0
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	13,403	327	7,347

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801

Schnellvergleich

Vergleichspaar wechseln

DeepSeek V4 PrononevsGemma 4 26B A4BmediumKostenlos verfügbar Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsGLM 5.1medium DeepSeek V4 PrononevsKimi K2.7 Codemedium DeepSeek V4 PrononevsGrok 4.20medium DeepSeek V4 ProhighvsGemini 3.1 Flash Lite Previewmedium DeepSeek V4 PrononevsGemini 3 Flash Previewlow DeepSeek V4 PrononevsMiMo-V2.5-Promedium Seed-2.0-MinimediumvsDeepSeek V4 Pronone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone DeepSeek V4 PrononevsQwen3.6 Flashmedium