AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.3 Chat

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-01

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	GPT-5.3 Chat GPT-5.3 Chat none Lançamento: 2026-03-03

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	GPT-5.3 Chat GPT-5.3 Chat none Lançamento: 2026-03-03
Pontuação	7.6	7.4
Posição	#52	#57
Confiabilidade	10.0	10.0
Consistência	9.2	8.4
Testes corretos
Taxa de acerto por tentativa	68.3%	68.3%
Testes instáveis	2	4
Execuções totais	60	60
Custo por resultado	10.229	3.350
Custo total	$1.330	$0.402
Preço de entrada	$3.000 / 1M	$1.750 / 1M
Preço de saída	$15.000 / 1M	$14.000 / 1M
Tokens de saída	49,891	24,757
Tokens de raciocínio	29,565	0
Tempo de resposta (médio)	15.81s	6.13s
Tempo de resposta (máx.)	46.35s	18.33s
Tempo de resposta (total)	189.71s	122.61s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	6.9	6.0	66.7%	1		33.87s	11,277	3,281
GPT-5.3 Chat	6.9	6.2	66.7%	1		10.52s	4,772	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	1,491	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		5.31s	592	646
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	1,758	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	569	0

Comparação rápida

Trocar par de comparação

GPT-5.3 ChatnonevsMiMo-V2.5medium GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.7 Flashlow Kimi K2.6mediumDisponível grátisvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.5 Flashmedium GPT-5.3 ChatnonevsGLM 5V Turbomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone MiniMax M3mediumvsGPT-5.3 Chatnone