DeepSeek: DeepSeek V3.2 vs Inception: Mercury 2

A pontuação média está praticamente empatada em 7.0 vs 7.0. DeepSeek V3.2 (medium) tem menor custo de benchmark com $0.078 vs $0.093. Mercury 2 (medium) é mais rápido com 2.72s vs 68.62s, com taxas de acerto de 65.2% vs 51.5%.

Modelo recomendadoMercury 2 (medium)Tem a melhor pontuação aqui (7.0) e responde cerca de 25.2x mais rápido que DeepSeek V3.2 (medium).

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-18

Métrica	DeepSeek V3.2 DeepSeek V3.2 medium Lançamento: 2025-12-01	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24

Métrica	DeepSeek V3.2 DeepSeek V3.2 medium Lançamento: 2025-12-01	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24
Pontuação	7.0	7.0
Posição	#75	#77
Confiabilidade	10.0	10.0
Consistência	7.4	8.8
Testes corretos
Taxa de acerto por tentativa	65.2%	51.5%
Testes instáveis	7	3
Execuções totais	66	66
Custo por resultado	0.671	0.928
Custo total	$0.078	$0.093
Preço de entrada	$0.269 / 1M	$0.250 / 1M
Preço de saída	$0.400 / 1M	$0.750 / 1M
Total de tokens de entrada	101,047	109,572
Tokens de saída	11,834	10,313
Tokens de raciocínio	117,014	76,806
Tempo de resposta (médio)	68.62s	2.72s
Tempo de resposta (máx.)	376.10s	14.63s
Tempo de resposta (total)	1509.53s	57.12s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#75 DeepSeek V3.2

medium

Custo: $0.001
Tempo: 53.6s
Tokens: 1,932 tok

#77 Mercury 2

medium

Custo: $0.002
Tempo: 2.1s
Tokens: 1,702 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Categoria:

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	8.2	7.9	83.3%	1		24.23s	448	3,247	6,953
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	6.0	7.2	55.6%	1		248.68s	5,717	649	52,014
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	7.3	5.8	83.3%	1		79.92s	76,997	5,219	24,229
Mercury 2	6.7	9.1	50.0%	0		7.84s	87,365	6,533	20,474

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	7,388	207	7,693
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	2.9	4.4	22.2%	2		24.27s	472	21	6,838
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	3.4	2.5	33.3%	1		58.29s	314	49	2,189
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	627	1,397	2,845
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	7.0	7.2	55.6%	1		37.69s	594	518	6,375
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	8,307	507	859
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	3.0	10.0	0.0%	0		83.99s	183	20	7,019
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748

Comparação rápida

Trocar par de comparação

Gemini 3.5 FlashnonevsMercury 2medium DeepSeek V3.2mediumvsGemini 3.5 Flashnone DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsGPT-5.6 Solnone DeepSeek V3.2mediumvsGPT-5.6 Solnone Mercury 2mediumvsStep 3.7 Flashhigh Mercury 2mediumvsGPT-5.5none DeepSeek V3.2mediumvsQwen3.7 Plusnone DeepSeek V3.2mediumvsStep 3.7 Flashhigh DeepSeek V3.2mediumvsGPT-5.5none Mercury 2mediumvsQwen3.7 Plusnone Gemini 3.5 FlashminimalvsMercury 2medium