AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.4

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-15

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	GPT-5.4 GPT-5.4 medium Lançamento: 2026-03-05

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	GPT-5.4 GPT-5.4 medium Lançamento: 2026-03-05
Posição	#12	#9
Pontuação	8.3	8.5
Consistência	9.5	8.5
Custo por resultado	8.525	6.601
Custo total	$1.023	$0.793
Testes corretos
Taxa de acerto por tentativa	77.1%	83.3%
Testes instáveis	1	3
Execuções totais	48	48
Tokens de saída	35,159	1,756
Tokens de raciocínio	24,687	46,642
Tempo de resposta (médio)	11.23s	20.05s
Tempo de resposta (máx.)	46.35s	100.41s
Tempo de resposta (total)	89.84s	320.87s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	7.7	10.0	66.7%	0		4.95s	1,031	1,093
GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

Comparação rápida

Trocar par de comparação

Gemini 3 Flash PreviewlowvsGPT-5.4medium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewnonevsGPT-5.4medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Claude Sonnet 4.6nonevsGPT-5.4medium Claude Sonnet 4.6mediumvsQwen3.5 Plus 2026-02-15none