AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs StepFun: Step 3.5 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-16

Métrica	DeepSeek V3.2 DeepSeek V3.2 medium Lançamento: 2025-12-01	Step 3.5 Flash Step 3.5 Flash medium Lançamento: 2026-02-01

Métrica	DeepSeek V3.2 DeepSeek V3.2 medium Lançamento: 2025-12-01	Step 3.5 Flash Step 3.5 Flash medium Lançamento: 2026-02-01
Pontuação	8.0	7.9
Posição	#27	#30
Consistência	8.2	9.1
Testes corretos
Taxa de acerto por tentativa	79.6%	70.6%
Testes instáveis	4	2
Execuções totais	54	49
Custo por resultado	0.240	0.000
Custo total	$0.029	$0.000
Preço de entrada	$0.260 / 1M	$0.100 / 1M
Preço de saída	$0.380 / 1M	$0.300 / 1M
Tokens de saída	10,620	71,904
Tokens de raciocínio	48,511	155,607
Tempo de resposta (médio)	46.41s	26.78s
Tempo de resposta (máx.)	180.92s	170.45s
Tempo de resposta (total)	835.33s	294.58s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	8.4	9.9	75.0%	0		30.72s	3,773	7,523
Step 3.5 Flash	10.0	10.0	100.0%	0		13.56s	14,376	17,668

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	4.7	1.6	66.7%	1		180.92s	626	6,792
Step 3.5 Flash	-	-	-	-	-	-	-	-

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	5.3	7.2	44.4%	1		39.32s	3,081	7,856
Step 3.5 Flash	5.3	7.2	44.4%	1		170.45s	45,350	90,436

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	5.4	2.5	66.7%	1		31.30s	68	2,366
Step 3.5 Flash	5.5	10.0	0.0%	0		6.54s	2,214	2,584

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845
Step 3.5 Flash	8.5	6.8	83.3%	1		4.98s	2,284	3,412

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	8.2	7.2	88.9%	1		36.87s	390	6,281
Step 3.5 Flash	5.3	10.0	33.3%	0		7.72s	5,629	10,835

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparação rápida

Trocar par de comparação

Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium GPT-5.2 ChatnonevsStep 3.5 Flashmedium DeepSeek V3.2mediumvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow DeepSeek V3.2mediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmedium GPT-5.3 ChatnonevsStep 3.5 Flashmedium Gemini 3 Flash PreviewnonevsStep 3.5 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsStep 3.5 Flashmedium Claude Sonnet 4.6nonevsDeepSeek V3.2medium