Navegação
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Qwen: Qwen3.5-9B

Resumo

Comparação benchmark DeepSeek V3.2 vs Qwen3.5-9B: DeepSeek V3.2 lidera na pontuação média com 5.3 vs 3.8. DeepSeek V3.2 tem menor custo de benchmark com $0.017 vs $0.036. DeepSeek V3.2 é mais rápido com 13.83s vs 82.24s, com taxas de acerto de 39.7% vs 27.0%.

Modelo recomendado: DeepSeek V3.2 - Tem a melhor pontuação aqui (5.3) e custa cerca de 2.1x menos que Qwen3.5-9B.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18

Métrica DeepSeek V3.2 DeepSeek V3.2 none Lançamento: 2025-12-01 Qwen3.5-9B Qwen3.5-9B medium Lançamento: 2026-03-02
Pontuação 5.3 3.8
Posição #126 #165
Confiabilidade 10.0 6.7
Consistência 7.6 8.0
Testes corretos
Taxa de acerto por tentativa 39.7% 27.0%
Testes instáveis 6 5
Execuções totais 63 63
Custo por resultado 0.306 1.187
Custo total $0.017 $0.036
Preço de entrada $0.229 / 1M $0.100 / 1M
Preço de saída $0.344 / 1M $0.150 / 1M
Total de tokens de entrada 55,997 17,070
Tokens de saída 11,165 29,045
Tokens de raciocínio 0 209,516
Tempo de resposta (médio) 13.83s 82.24s
Tempo de resposta (máx.) 115.89s 226.38s
Tempo de resposta (total) 290.43s 1315.88s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#126 DeepSeek V3.2

none
Custo
$0.002
Tempo
7.0s
Tokens
1,046 tok

#165 Qwen3.5-9B

medium
Custo
$0.001
Tempo
35.9s
Tokens
3,030 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 3.2 8.0 8.3% 1 9.35s 494 1,073 0
Qwen3.5-9B 5.1 5.8 50.0% 2 34.44s 369 2,621 12,411
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 3.1 6.9 11.1% 1 14.54s 7,279 4,528 0
Qwen3.5-9B 2.9 10.0 0.0% 0 100.88s 2,396 7,890 41,129
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 6.5 10.0 0.0% 0 115.89s 29,843 2,887 0
Qwen3.5-9B 3.0 10.0 0.0% 0 0ms 0 0 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 6.3 5.8 66.7% 1 9.42s 7,890 1,710 0
Qwen3.5-9B 3.6 5.6 33.3% 1 87.31s 4,722 1,383 32,113
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 2.9 7.2 11.1% 1 4.17s 624 21 0
Qwen3.5-9B 3.6 7.2 22.2% 1 137.75s 295 11,549 48,475
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 4.7 1.6 66.7% 1 9.32s 314 43 0
Qwen3.5-9B 2.8 1.6 33.3% 1 226.38s 180 0 30,695
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 10.0 10.0 100.0% 0 1.52s 627 66 0
Qwen3.5-9B 6.5 10.0 50.0% 0 5.75s 381 491 1,824
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 7.6 7.2 77.8% 1 6.91s 424 298 0
Qwen3.5-9B 3.0 10.0 0.0% 0 32.27s 376 1,593 12,026
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 10.0 10.0 100.0% 0 11.85s 8,319 522 0
Qwen3.5-9B 10.0 10.0 100.0% 0 4.31s 8,283 444 1,149
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
DeepSeek V3.2 3.0 10.0 0.0% 0 17.23s 183 17 0
Qwen3.5-9B 3.0 10.0 0.0% 0 177.02s 68 3,074 29,694

Comparação rápida

Trocar par de comparação