AI BENCHY
Comparar Gráficos
❤️ Made by XCS
Your ad here

#12

DeepSeek V3.2

Deepseek · Lançamento: 2025-12-01 · deepseek/deepseek-v3.2::medium

Pontuação média

6.99

Custo por resultado

0.193

Consistência

8.75

Custo total

$0.018

Testes corretos

9

Um teste é totalmente aprovado apenas quando todas as execuções passam.

Testes errados

5

Taxa de acerto por tentativa: 71.4%

Testes instáveis

2

Tempo de resposta: médio 36.24s · total 507.30s · máx. 79.03s

Resposta incorreta: 3 Não seguiu as instruções: 1 Tempo esgotado: 1

Melhores modelos por pontuação

Escolha o primeiro modelo e depois clique em um segundo modelo para abrir uma página lado a lado.

Comparação rápida

Detalhamento por categoria

Categoria Pontuação média Consistência Testes corretos
Anti-AI Tricks 7.00 9.86 2/3
Data parsing and extraction 9.88 10.00 2/2
Domain specific 4.00 7.21 1/3
Instructions following 7.00 9.84 1/2
Puzzle Solving 7.00 7.21 2/3
Tool Calling 10.00 10.00 1/1