Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.4

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica	Anthropic: Claude Opus 4.6 medium Lançamento: 2026-02-05	OpenAI: GPT-5.4 none Lançamento: 2026-03-05
Pontuação média	6.4	4.6
Posição	#30	#44
Testes corretos
Consistência	8.9	8.9
Custo por resultado	14.411	1.496
Custo total	$1.297	$0.090
Taxa de acerto por tentativa	64.4%	44.4%
Testes instáveis	2	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokens de saída	26,066	1,635
Tokens de raciocínio	17,071	0
Tempo de resposta (médio)	25.08s	1.46s
Tempo de resposta (máx.)	83.40s	2.89s
Tempo de resposta (total)	200.67s	21.86s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparação rápida

Trocar par de comparação

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsGPT-5.4none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGemini 2.5 Flashnone Claude Opus 4.6mediumvsDeepSeek V3.2none GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium