Navegação
AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.2 Chat

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica Anthropic: Claude Opus 4.6 medium Lançamento: 2026-02-05 OpenAI: GPT-5.2 Chat none Lançamento: 2025-12-11
Pontuação média 6.4 7.7
Posição #31 #12
Testes corretos
Consistência 8.9 9.5
Custo por resultado 14.411 2.389
Custo total $1.297 $0.263
Taxa de acerto por tentativa 64.4% 77.8%
Testes instáveis 2 1
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Tokens de saída 26,066 15,510
Tokens de raciocínio 17,071 0
Tempo de resposta (médio) 25.08s 7.29s
Tempo de resposta (máx.) 83.40s 38.52s
Tempo de resposta (total) 200.67s 109.31s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
OpenAI: GPT-5.2 Chat 10.0 10.0 100.0% 0 3.97s 1,651 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
OpenAI: GPT-5.2 Chat 10.0 10.0 100.0% 0 9.12s 1,243 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
OpenAI: GPT-5.2 Chat 9.9 10.0 100.0% 0 3.05s 980 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
OpenAI: GPT-5.2 Chat 4.0 10.0 33.3% 0 17.78s 7,810 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
OpenAI: GPT-5.2 Chat 6.0 6.1 83.3% 1 5.46s 1,528 0
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
OpenAI: GPT-5.2 Chat 7.0 10.0 66.7% 0 4.42s 1,743 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
OpenAI: GPT-5.2 Chat 10.0 10.0 100.0% 0 4.68s 555 0

Comparação rápida

Trocar par de comparação