Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs DeepSeek: DeepSeek V4 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-28

Métrica Claude Opus 4.8 Claude Opus 4.8 medium Lançamento: 2026-05-28 DeepSeek V4 Flash DeepSeek V4 Flash high Lançamento: 2026-04-24 Disponível grátis
Pontuação 8.7 7.6
Posição #12 #45
Confiabilidade 10.0 10.0
Consistência 9.6 8.4
Testes corretos
Taxa de acerto por tentativa 83.3% 73.3%
Testes instáveis 1 4
Execuções totais 60 60
Custo por resultado 6.285 0.309
Custo total $1.006 $0.028
Preço de entrada $5.000 / 1M $0.100 / 1M
Preço de saída $25.000 / 1M $0.200 / 1M
Tokens de saída 23,201 10,302
Tokens de raciocínio 5,901 115,740
Tempo de resposta (médio) 9.34s 46.36s
Tempo de resposta (máx.) 38.03s 218.13s
Tempo de resposta (total) 186.84s 927.27s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 1,179 478
DeepSeek V4 Flash 8.3 10.0 75.0% 0 28.51s 140 7,770
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 14.97s 6,651 1,381
DeepSeek V4 Flash 6.8 10.0 50.0% 0 58.13s 387 27,101
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 9.8 10.0 100.0% 0 38.03s 5,260 1,588
DeepSeek V4 Flash 10.0 10.0 100.0% 0 76.57s 465 7,347
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 7.1 5.6 83.3% 1 12.29s 481 312
DeepSeek V4 Flash 10.0 10.0 100.0% 0 28.03s 201 1,179
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 5.3 10.0 33.3% 0 14.15s 7,477 900
DeepSeek V4 Flash 4.1 4.4 44.5% 2 100.31s 27 59,249
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 2.46s 237 0
DeepSeek V4 Flash 6.1 3.1 66.7% 1 25.15s 79 632
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 3.32s 373 320
DeepSeek V4 Flash 10.0 10.0 100.0% 0 15.36s 63 1,622
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 791 483
DeepSeek V4 Flash 8.2 7.2 88.9% 1 26.11s 196 1,767
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 8.96s 301 225
DeepSeek V4 Flash 10.0 10.0 100.0% 0 74.73s 228 542
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.8 3.0 10.0 0.0% 0 6.14s 451 214
DeepSeek V4 Flash 3.0 10.0 0.0% 0 54.46s 8,516 8,531

Comparação rápida

Trocar par de comparação