AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 3 Flash Preview

Summary

DeepSeek V4 Pro vs Gemini 3 Flash Preview benchmark comparison: Gemini 3 Flash Preview leads on average score with 7.4 vs 7.2. DeepSeek V4 Pro has the lower benchmark cost at $0.030 vs $0.111. DeepSeek V4 Pro is faster at 5.30s vs 5.76s, with pass rates of 52.4% vs 79.4%.

Recommended model: Gemini 3 Flash Preview - It has the strongest score in this comparison (7.4) and the best overall balance of cost and response time across all 2 models.

Last updated at: 2026-06-12

Metric	DeepSeek V4 Pro DeepSeek V4 Pro none Release: 2026-04-24	Gemini 3 Flash Preview Gemini 3 Flash Preview low Release: 2025-12-17

Metric	DeepSeek V4 Pro DeepSeek V4 Pro none Release: 2026-04-24	Gemini 3 Flash Preview Gemini 3 Flash Preview low Release: 2025-12-17
Score	7.2	7.4
Rank	#61	#54
Reliability	9.9	10.0
Consistency	8.8	9.2
Tests Correct
Attempt pass rate	52.4%	79.4%
Flaky tests	3	2
Total Runs	61	63
Cost per result	0.293	0.689
Total Cost	$0.030	$0.111
Input Price	$0.435 / 1M	$0.500 / 1M
Output Price	$0.870 / 1M	$3.000 / 1M
Total Input Tokens	53,078	36,769
Output Tokens	7,047	2,076
Reasoning Tokens	0	28,518
Response Time (avg)	5.30s	5.76s
Response Time (max)	23.74s	14.72s
Response Time (total)	111.39s	120.93s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#61 DeepSeek V4 Pro

none

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

#54 Gemini 3 Flash Preview

low

Cost: $0.007
Time: 12.1s
Tokens: 2,289 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.48s	500	281	3,082

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	5.6	10.0	33.3%	0		5.62s	6,795	1,123	0
Gemini 3 Flash Preview	5.8	7.2	44.4%	1		6.00s	8,122	456	7,421

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0
Gemini 3 Flash Preview	3.0	10.0	0.0%	0		3.27s	12,860	326	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		9.40s	7,261	279	3,656

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0
Gemini 3 Flash Preview	5.3	7.2	44.4%	1		8.05s	645	12	6,410

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.68s	492	120	981

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0
Gemini 3 Flash Preview	9.9	10.0	100.0%	0		7.02s	621	71	2,752

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		5.77s	562	288	3,168

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		4.99s	5,550	234	415

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		2.75s	156	9	633

Quick Compare

Switch Comparison Pair

DeepSeek V4 PrononevsGemma 4 26B A4BmediumFree Available Gemini 3 Flash PreviewlowvsGrok 4.20medium Gemini 3 Flash PreviewlowvsMiMo-V2.5-Promedium Seed-2.0-MinimediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6nonevsGemini 3 Flash Previewlow DeepSeek V4 PrononevsGLM 5V Turbomedium DeepSeek V3.2mediumvsGemini 3 Flash Previewlow DeepSeek V4 PrononevsMiMo-V2-Flashmedium Gemini 3 Flash PreviewlowvsQwen3.6 Flashmedium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsGLM 5.1medium Gemini 3 Flash PreviewlowvsGLM 5V Turbomedium