AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 3.1 Flash Lite Preview

Zusammenfassung

DeepSeek V4 Pro vs Gemini 3.1 Flash Lite Preview Benchmark-Vergleich: DeepSeek V4 Pro führt beim Durchschnittsscore mit 8.1 vs 7.8. Gemini 3.1 Flash Lite Preview hat die niedrigeren Benchmark-Kosten mit $0.068 vs $0.098. Gemini 3.1 Flash Lite Preview ist schneller mit 3.96s vs 72.22s, mit Erfolgsraten von 66.7% vs 61.9%.

Empfohlenes Modell: Gemini 3.1 Flash Lite Preview - Die Punktzahl bleibt nah an der besten hier (7.8 vs 8.1) und es antwortet etwa 18.3x schneller als DeepSeek V4 Pro.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-12

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Veröffentlichung: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03

Metrik	DeepSeek V4 Pro DeepSeek V4 Pro high Veröffentlichung: 2026-04-24	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03
Punktzahl	8.1	7.8
Rang	#30	#36
Zuverlässigkeit	9.6	10.0
Konsistenz	7.8	10.0
Korrekte Tests
Erfolgsquote pro Versuch	66.7%	61.9%
Instabile Tests	6	0
Gesamtläufe	57	63
Kosten pro Ergebnis	0.978	0.523
Gesamtkosten	$0.098	$0.068
Eingabepreis	$0.435 / 1M	$0.250 / 1M
Ausgabepreis	$0.870 / 1M	$1.500 / 1M
Gesamte Eingabe-Token	35,122	37,786
Ausgabe-Token	6,315	2,210
Denk-Token	93,205	36,744
Antwortzeit (Durchschnitt)	72.22s	3.96s
Antwortzeit (Maximum)	437.44s	14.93s
Antwortzeit (Gesamt)	1444.45s	83.06s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 DeepSeek V4 Pro

high

Cost: $0.023
Time: 257.6s
Tokens: 14,870 tok

#36 Gemini 3.1 Flash Lite Preview

medium

Cost: $0.003
Time: 5.2s
Tokens: 1,944 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	5.7	5.9	58.3%	2		25.70s	536	149	3,214
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	7.7	10.0	66.7%	0		308.19s	1,583	368	42,658
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		38.17s	14,060	454	5,836
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	13,403	327	7,347

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		25.03s	7,690	274	2,166
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.6	7.2	22.2%	1		130.09s	472	4,400	26,367
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	10.0	10.0	100.0%	0		8.83s	471	115	1,013
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	7.8	6.6	83.3%	1		8.73s	627	66	2,726
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	6.9	4.9	77.8%	2		56.85s	591	178	2,563
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	9.8	10.0	100.0%	0		15.92s	8,909	295	701
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Pro	3.0	10.0	0.0%	0		34.01s	183	16	5,961
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801

Schnellvergleich

Vergleichspaar wechseln