AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs DeepSeek: DeepSeek V3.2

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-30

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	DeepSeek V3.2 DeepSeek V3.2 medium Lançamento: 2025-12-01

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	DeepSeek V3.2 DeepSeek V3.2 medium Lançamento: 2025-12-01
Pontuação	8.0	8.0
Posição	#36	#37
Confiabilidade	N/D	N/D
Consistência	9.5	8.2
Testes corretos
Taxa de acerto por tentativa	74.1%	79.6%
Testes instáveis	1	4
Execuções totais	54	52
Custo por resultado	8.930	0.231
Custo total	$1.161	$0.028
Preço de entrada	$3.000 / 1M	$0.252 / 1M
Preço de saída	$15.000 / 1M	$0.378 / 1M
Tokens de saída	42,068	7,554
Tokens de raciocínio	26,784	45,588
Tempo de resposta (médio)	12.66s	43.49s
Tempo de resposta (máx.)	46.35s	180.92s
Tempo de resposta (total)	126.62s	782.73s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
DeepSeek V3.2	8.4	9.9	75.0%	0		30.72s	3,773	7,523

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
DeepSeek V3.2	4.7	1.6	66.7%	1		180.92s	626	6,792

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
DeepSeek V3.2	5.3	7.2	44.4%	1		21.78s	15	4,933

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
DeepSeek V3.2	5.4	2.5	66.7%	1		31.30s	68	2,366

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
DeepSeek V3.2	8.2	7.2	88.9%	1		36.87s	390	6,281

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859

Comparação rápida

Trocar par de comparação

DeepSeek V3.2mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsHY3 PreviewlowDisponível grátis Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3 Flash Previewnone DeepSeek V3.2mediumvsHY3 PreviewlowDisponível grátis DeepSeek V3.2mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone