AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Google: Gemini 2.5 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-29

Métrica	DeepSeek V4 Pro DeepSeek V4 Pro none Lançamento: 2026-04-24	Gemini 2.5 Flash Gemini 2.5 Flash none Lançamento: 2025-06-17

Métrica	DeepSeek V4 Pro DeepSeek V4 Pro none Lançamento: 2026-04-24	Gemini 2.5 Flash Gemini 2.5 Flash none Lançamento: 2025-06-17
Pontuação	6.2	6.4
Posição	#98	#95
Confiabilidade	8.5	10.0
Consistência	8.9	9.6
Testes corretos
Taxa de acerto por tentativa	48.3%	48.3%
Testes instáveis	3	1
Execuções totais	60	60
Custo por resultado	0.564	0.159
Custo total	$0.046	$0.015
Preço de entrada	$0.435 / 1M	$0.300 / 1M
Preço de saída	$0.870 / 1M	$2.500 / 1M
Tokens de saída	5,345	1,764
Tokens de raciocínio	0	0
Tempo de resposta (médio)	12.91s	889ms
Tempo de resposta (máx.)	58.65s	4.39s
Tempo de resposta (total)	258.27s	17.79s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	3.5	8.0	16.7%	1		14.02s	704	0
Gemini 2.5 Flash	3.0	10.0	0.0%	0		582ms	102	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	5.4	6.8	33.3%	1		8.27s	527	0
Gemini 2.5 Flash	6.8	10.0	50.0%	0		810ms	477	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	9.5	10.0	100.0%	0		25.49s	1,911	0
Gemini 2.5 Flash	3.0	10.0	0.0%	0		4.39s	366	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	10.0	10.0	100.0%	0		30.54s	170	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		652ms	279	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.17s	18	0
Gemini 2.5 Flash	5.9	7.2	55.6%	1		495ms	12	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	4.3	9.9	0.0%	0		3.75s	132	0
Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	78	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	6.3	10.0	50.0%	0		8.23s	64	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		590ms	72	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	7.6	7.2	77.8%	1		15.95s	173	0
Gemini 2.5 Flash	7.7	10.0	66.7%	0		604ms	132	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	10.0	10.0	100.0%	0		5.92s	219	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	234	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	3.0	10.0	0.0%	0		15.59s	1,427	0
Gemini 2.5 Flash	3.0	10.0	0.0%	0		1.15s	12	0

Comparação rápida

Trocar par de comparação

DeepSeek V4 PrononevsGPT-5 Nanomedium Gemini 2.5 FlashnonevsMercury 2medium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium DeepSeek V4 PrononevsNemotron 3 SupermediumDisponível grátis DeepSeek V4 Prononevsgpt-oss-120bmediumDisponível grátis Gemini 2.5 FlashnonevsGPT-5 Nanomedium DeepSeek V4 PrononevsOwl Alphamedium DeepSeek V4 PrononevsMercury 2medium Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V4 PrononevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsNemotron 3 SupermediumDisponível grátis Gemini 2.5 Flashnonevsgpt-oss-120bmediumDisponível grátis