Navegação
AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.3 Chat

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica Anthropic: Claude Opus 4.6 medium Lançamento: 2026-02-05 OpenAI: GPT-5.3 Chat none Lançamento: 2026-03-03
Pontuação média 6.4 7.5
Posição #31 #20
Testes corretos
Consistência 8.9 8.4
Custo por resultado 14.411 3.110
Custo total $1.297 $0.311
Taxa de acerto por tentativa 64.4% 75.6%
Testes instáveis 2 3
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Tokens de saída 26,066 18,953
Tokens de raciocínio 17,071 0
Tempo de resposta (médio) 25.08s 6.22s
Tempo de resposta (máx.) 83.40s 18.33s
Tempo de resposta (total) 200.67s 93.31s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
OpenAI: GPT-5.3 Chat 7.3 7.5 77.8% 1 4.72s 3,091 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
OpenAI: GPT-5.3 Chat 9.9 10.0 100.0% 0 2.21s 942 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
OpenAI: GPT-5.3 Chat 10.0 4.4 33.3% 2 13.01s 8,264 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
OpenAI: GPT-5.3 Chat 9.0 10.0 50.0% 0 3.29s 1,455 0
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 2.93s 1,726 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0

Comparação rápida

Trocar par de comparação