Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.3-Codex

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-29

Métrica Claude Opus 4.7 Claude Opus 4.7 medium Lançamento: 2026-04-16 GPT-5.3-Codex GPT-5.3-Codex medium Lançamento: 2026-02-05
Pontuação 8.9 8.3
Posição #7 #17
Confiabilidade 10.0 10.0
Consistência 10.0 8.4
Testes corretos
Taxa de acerto por tentativa 85.0% 81.7%
Testes instáveis 0 4
Execuções totais 60 60
Custo por resultado 3.670 4.887
Custo total $0.624 $0.685
Preço de entrada $5.000 / 1M $1.750 / 1M
Preço de saída $25.000 / 1M $14.000 / 1M
Tokens de saída 10,439 2,336
Tokens de raciocínio 2,198 42,565
Tempo de resposta (médio) 4.48s 15.95s
Tempo de resposta (máx.) 23.18s 100.93s
Tempo de resposta (total) 85.21s 319.08s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 348 0
GPT-5.3-Codex 8.7 7.9 91.7% 1 4.16s 240 1,722
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 14.79s 6,210 1,114
GPT-5.3-Codex 10.0 10.0 100.0% 0 18.45s 514 7,266
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 2,369 1,084
GPT-5.3-Codex 10.0 10.0 100.0% 0 19.56s 364 2,731
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 324 0
GPT-5.3-Codex 10.0 10.0 100.0% 0 3.07s 234 728
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 51 0
GPT-5.3-Codex 5.9 7.2 55.6% 1 64.31s 64 25,308
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 256 0
GPT-5.3-Codex 4.6 10.0 0.0% 0 4.87s 187 331
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 114 0
GPT-5.3-Codex 10.0 10.0 100.0% 0 3.04s 93 693
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.43s 370 0
GPT-5.3-Codex 9.0 7.9 88.9% 1 5.05s 356 1,593
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 373 0
GPT-5.3-Codex 10.0 10.0 100.0% 0 6.37s 254 492
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 3.0 10.0 0.0% 0 2.25s 24 0
GPT-5.3-Codex 2.8 1.6 33.3% 1 14.43s 30 1,701

Comparação rápida

Trocar par de comparação