AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.5-35B-A3B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-28

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lançamento: 2026-05-28	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lançamento: 2026-02-24

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lançamento: 2026-05-28	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lançamento: 2026-02-24
Pontuação	7.3	7.3
Posição	#63	#65
Confiabilidade	10.0	10.0
Consistência	9.2	7.5
Testes corretos
Taxa de acerto por tentativa	65.0%	73.3%
Testes instáveis	2	6
Execuções totais	60	60
Custo por resultado	4.324	4.865
Custo total	$0.519	$0.368
Preço de entrada	$5.000 / 1M	$0.139 / 1M
Preço de saída	$25.000 / 1M	$1.000 / 1M
Tokens de saída	8,098	31,242
Tokens de raciocínio	0	330,546
Tempo de resposta (médio)	3.51s	69.66s
Tempo de resposta (máx.)	17.73s	409.98s
Tempo de resposta (total)	70.19s	1393.17s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	798	42,652

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Qwen3.5-35B-A3B	6.5	10.0	50.0%	0		244.54s	14,456	88,431

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Qwen3.5-35B-A3B	8.2	7.2	88.9%	1		33.13s	3,592	26,585

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		177.35s	10,919	72,053

Comparação rápida

Trocar par de comparação

Ring-2.6-1TnonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGPT-5 Minimedium Claude Opus 4.8nonevsKimi K2.6mediumDisponível grátis Claude Opus 4.8nonevsMiMo-V2.5medium Claude Opus 4.8nonevsGLM 5.1medium Claude Opus 4.8nonevsGemini 3.1 Flash Litelow