AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs OpenAI: GPT-5.3 Chat

Resumo

Comparação benchmark Claude Sonnet 5 vs GPT-5.3 Chat: Claude Sonnet 5 lidera na pontuação média com 7.9 vs 7.5. GPT-5.3 Chat tem menor custo de benchmark com $0.433 vs $0.550. GPT-5.3 Chat é mais rápido com 6.34s vs 9.94s, com taxas de acerto de 79.4% vs 66.7%.

Modelo recomendado: GPT-5.3 Chat - A pontuação fica perto da melhor aqui (7.5 vs 7.9) e responde cerca de 1.6x mais rápido que Claude Sonnet 5.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-30

Métrica	Claude Sonnet 5 Claude Sonnet 5 medium Lançamento: 2026-06-30	GPT-5.3 Chat GPT-5.3 Chat none Lançamento: 2026-03-03

Métrica	Claude Sonnet 5 Claude Sonnet 5 medium Lançamento: 2026-06-30	GPT-5.3 Chat GPT-5.3 Chat none Lançamento: 2026-03-03
Pontuação	7.9	7.5
Posição	#30	#47
Confiabilidade	10.0	10.0
Consistência	9.0	8.1
Testes corretos
Taxa de acerto por tentativa	79.4%	66.7%
Testes instáveis	3	5
Execuções totais	63	63
Custo por resultado	3.662	3.605
Custo total	$0.550	$0.433
Preço de entrada	$2.000 / 1M	$1.750 / 1M
Preço de saída	$10.000 / 1M	$14.000 / 1M
Total de tokens de entrada	67,416	34,209
Tokens de saída	34,012	26,617
Tokens de raciocínio	7,673	0
Tempo de resposta (médio)	9.94s	6.34s
Tempo de resposta (máx.)	56.94s	18.33s
Tempo de resposta (total)	208.71s	133.13s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium

Custo: $0.007
Tempo: 6.4s
Tokens: 832 tok

#47 GPT-5.3 Chat

none

Custo: $0.008
Tempo: 8.1s
Tokens: 634 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	10.0	10.0	100.0%	0		3.80s	834	1,220	446
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	9.0	7.9	88.9%	1		17.28s	10,590	13,153	2,379
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	4.5	2.1	66.7%	1		37.01s	29,394	4,848	2,170
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	10.0	10.0	100.0%	0		3.16s	10,503	312	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	7.7	10.0	66.7%	0		20.38s	975	12,140	1,994
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	4.8	3.2	33.3%	1		4.32s	708	264	0
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	9.9	10.0	100.0%	0		3.10s	909	318	269
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	7.7	10.0	66.7%	0		2.98s	894	407	121
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	10.0	10.0	100.0%	0		10.70s	12,351	433	90
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Claude Sonnet 5	3.0	10.0	0.0%	0		7.06s	258	917	204
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

Comparação rápida

Trocar par de comparação

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok Build 0.1medium DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone Claude Sonnet 5mediumvsStep 3.7 Flashlow GPT-5.3 ChatnonevsGrok 4.20medium