AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.2

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-30

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lançamento: 2026-02-05	GPT-5.2 GPT-5.2 medium Lançamento: 2025-12-11

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lançamento: 2026-02-05	GPT-5.2 GPT-5.2 medium Lançamento: 2025-12-11
Pontuação	7.6	7.5
Posição	#49	#53
Confiabilidade	N/D	N/D
Consistência	9.1	8.1
Testes corretos
Taxa de acerto por tentativa	70.4%	72.2%
Testes instáveis	2	4
Execuções totais	54	54
Custo por resultado	12.047	3.193
Custo total	$1.446	$0.352
Preço de entrada	$5.000 / 1M	$1.750 / 1M
Preço de saída	$25.000 / 1M	$14.000 / 1M
Tokens de saída	29,829	2,705
Tokens de raciocínio	18,938	18,977
Tempo de resposta (médio)	21.08s	14.04s
Tempo de resposta (máx.)	83.40s	77.80s
Tempo de resposta (total)	231.84s	154.41s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
GPT-5.2	10.0	10.0	100.0%	0		15.12s	467	2,166

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
GPT-5.2	7.7	7.3	77.8%	1		5.47s	609	938

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469

Comparação rápida

Trocar par de comparação

GPT-5.2mediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsGPT-5.2medium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone DeepSeek V4 FlashhighvsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsHY3 PreviewlowDisponível grátis