DeepSeek: DeepSeek V3.2 vs Google: Gemini 3.5 Flash
Resumo
Comparação benchmark DeepSeek V3.2 vs Gemini 3.5 Flash: DeepSeek V3.2 lidera na pontuação média com 7.5 vs 7.0. DeepSeek V3.2 tem menor custo de benchmark com $0.044 vs $1.079. Gemini 3.5 Flash é mais rápido com 9.93s vs 68.71s, com taxas de acerto de 65.1% vs 77.8%.
Modelo recomendado: DeepSeek V3.2 - Tem a melhor pontuação aqui (7.5) e custa cerca de 24.6x menos que Gemini 3.5 Flash.
Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18
7.5Pontuação média em todos os testes de benchmark.…
7.0Pontuação média em todos os testes de benchmark.…
Posição
#48
#66
Confiabilidade
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
7.6A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
8.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Erro de API: 2Tempo esgotado: 2Não seguiu as instruções: 1Tempo de resposta (médio)68.71sTempo de resposta (máx.)376.10sTempo de resposta (total)1442.81sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 3Resposta incorreta: 3Tempo de resposta (médio)9.93sTempo de resposta (máx.)64.36sTempo de resposta (total)178.68sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
65.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
77.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
6Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
3Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Execuções totais
63Execuções totais…
63Execuções totais…
Custo por resultado
0.436Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
7.190Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
Custo total
$0.044Custo total (preço atual)…
$1.079Custo total (preço atual)…
Preço de entrada
$0.229 / 1MPreço de entrada…
$1.500 / 1MPreço de entrada…
Preço de saída
$0.344 / 1MPreço de saída…
$9.000 / 1MPreço de saída…
Total de tokens de entrada
38,333Total de tokens de entrada…
13,843Total de tokens de entrada…
Tokens de saída
7,186Tokens de saída…
117,518Tokens de saída…
Tokens de raciocínio
99,081Tokens de raciocínio…
0Tokens de raciocínio…
Tempo de resposta (médio)
68.71sTempo de resposta (médio)…
9.93sTempo de resposta (médio)…
Tempo de resposta (máx.)
376.10sTempo de resposta (máx.)…
64.36sTempo de resposta (máx.)…
Tempo de resposta (total)
1442.81sTempo de resposta (total)…
178.68sTempo de resposta (total)…
Geração showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
8.2Pontuação média em todos os testes de benchmark.…
7.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
83.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)24.23sTempo de resposta (máx.)29.86sTempo de resposta (total)96.93sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.53sTempo de resposta (máx.)3.43sTempo de resposta (total)10.12sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.0Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
55.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)248.68sTempo de resposta (máx.)376.10sTempo de resposta (total)746.04sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
8.8Pontuação média em todos os testes de benchmark.…
7.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
88.9%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)34.69sTempo de resposta (máx.)64.36sTempo de resposta (total)104.06sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)93.11sTempo de resposta (máx.)93.11sTempo de resposta (total)93.11sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)36.09sTempo de resposta (máx.)39.12sTempo de resposta (total)72.18sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.5Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)8.10sTempo de resposta (máx.)8.10sTempo de resposta (total)8.10sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
2.9Pontuação média em todos os testes de benchmark.…
4.4A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
22.2%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo esgotado: 1Tempo de resposta (médio)24.27sTempo de resposta (máx.)33.91sTempo de resposta (total)72.82sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.6Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
77.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)10.64sTempo de resposta (máx.)14.00sTempo de resposta (total)31.92sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.4Pontuação média em todos os testes de benchmark.…
2.5A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)58.29sTempo de resposta (máx.)58.29sTempo de resposta (total)58.29sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.46sTempo de resposta (máx.)3.46sTempo de resposta (total)3.46sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)35.78sTempo de resposta (máx.)47.30sTempo de resposta (total)71.56sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
9.8Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.38sTempo de resposta (máx.)3.40sTempo de resposta (total)6.76sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.0Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
55.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)37.69sTempo de resposta (máx.)59.22sTempo de resposta (total)113.08sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.13sTempo de resposta (máx.)3.33sTempo de resposta (total)9.39sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.81sTempo de resposta (máx.)34.81sTempo de resposta (total)34.81sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)83.99sTempo de resposta (máx.)83.99sTempo de resposta (total)83.99sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
2.8Pontuação média em todos os testes de benchmark.…
1.6A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.87sTempo de resposta (máx.)4.87sTempo de resposta (total)4.87sUm teste é totalmente aprovado apenas quando todas as execuções passam.…