Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.3 Chat

Resumo

Comparação benchmark Claude Opus 4.7 vs GPT-5.3 Chat: Claude Opus 4.7 lidera na pontuação média com 8.7 vs 7.5. GPT-5.3 Chat tem menor custo de benchmark com $0.433 vs $0.679. Claude Opus 4.7 é mais rápido com 4.73s vs 6.34s, com taxas de acerto de 82.5% vs 66.7%.

Modelo recomendado: Claude Opus 4.7 - Tem a pontuação mais forte nesta comparação (8.7) e o melhor equilíbrio geral entre custo e tempo de resposta entre os 2 modelos.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18

Métrica Claude Opus 4.7 Claude Opus 4.7 medium Lançamento: 2026-04-16 GPT-5.3 Chat GPT-5.3 Chat none Lançamento: 2026-03-03
Pontuação 8.7 7.5
Posição #13 #45
Confiabilidade 10.0 10.0
Consistência 9.6 8.1
Testes corretos
Taxa de acerto por tentativa 82.5% 66.7%
Testes instáveis 1 5
Execuções totais 63 63
Custo por resultado 3.991 3.605
Custo total $0.679 $0.433
Preço de entrada $5.000 / 1M $1.750 / 1M
Preço de saída $25.000 / 1M $14.000 / 1M
Total de tokens de entrada 65,406 34,209
Tokens de saída 11,858 26,617
Tokens de raciocínio 2,198 0
Tempo de resposta (médio) 4.73s 6.34s
Tempo de resposta (máx.) 23.18s 18.33s
Tempo de resposta (total) 94.51s 133.13s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#13 Claude Opus 4.7

medium
Custo
$0.059
Tempo
26.8s
Tokens
2,475 tok

#45 GPT-5.3 Chat

none
Custo
$0.008
Tempo
8.1s
Tokens
634 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 894 348 0
GPT-5.3 Chat 6.7 8.1 58.3% 1 3.86s 606 3,167 0
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 7.6 7.2 77.8% 1 12.96s 10,635 7,629 1,114
GPT-5.3 Chat 5.6 4.7 55.6% 2 10.52s 7,302 6,632 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 24,501 2,369 1,084
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 11,019 2,614 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 10,533 324 0
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.21s 7,140 942 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 630 51 0
GPT-5.3 Chat 3.5 4.4 33.3% 2 13.01s 723 8,264 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 723 256 0
GPT-5.3 Chat 4.6 10.0 0.0% 0 1.99s 477 319 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 939 114 0
GPT-5.3 Chat 9.8 10.0 100.0% 0 3.51s 660 1,491 0
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.43s 939 370 0
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.99s 642 1,758 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 15,339 373 0
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 5,445 861 0
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.7 3.0 10.0 0.0% 0 2.25s 273 24 0
GPT-5.3 Chat 3.0 10.0 0.0% 0 4.38s 195 569 0

Comparação rápida

Trocar par de comparação