AI BENCHY Compare

Qwen: Qwen3.5-35B-A3B vs StepFun: Step 3.7 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-29

Métrica	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lançamento: 2026-02-24	Step 3.7 Flash Step 3.7 Flash low Lançamento: 2026-05-29

Métrica	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lançamento: 2026-02-24	Step 3.7 Flash Step 3.7 Flash low Lançamento: 2026-05-29
Pontuação	7.3	7.4
Posição	#68	#60
Confiabilidade	10.0	10.0
Consistência	7.5	8.7
Testes corretos
Taxa de acerto por tentativa	73.3%	68.3%
Testes instáveis	6	3
Execuções totais	60	60
Custo por resultado	4.865	2.796
Custo total	$0.536	$0.336
Preço de entrada	$0.139 / 1M	$0.200 / 1M
Preço de saída	$1.000 / 1M	$1.150 / 1M
Tokens de saída	31,242	285,209
Tokens de raciocínio	330,546	0
Tempo de resposta (médio)	69.66s	16.06s
Tempo de resposta (máx.)	409.98s	124.75s
Tempo de resposta (total)	1393.17s	321.11s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	798	42,652
Step 3.7 Flash	8.7	7.9	91.7%	1		4.02s	10,896	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	6.5	10.0	50.0%	0		244.54s	14,456	88,431
Step 3.7 Flash	10.0	10.0	100.0%	0		9.43s	14,569	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485
Step 3.7 Flash	10.0	10.0	100.0%	0		7.98s	6,426	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493
Step 3.7 Flash	7.3	5.8	83.3%	1		2.29s	2,667	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368
Step 3.7 Flash	5.3	7.2	44.4%	1		43.31s	104,487	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753
Step 3.7 Flash	3.4	9.3	0.0%	0		7.00s	4,604	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361
Step 3.7 Flash	9.8	10.0	100.0%	0		1.58s	1,857	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	8.2	7.2	88.9%	1		33.13s	3,592	26,585
Step 3.7 Flash	5.5	9.9	33.3%	0		1.84s	3,564	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365
Step 3.7 Flash	10.0	10.0	100.0%	0		3.25s	1,360	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		177.35s	10,919	72,053
Step 3.7 Flash	3.0	10.0	0.0%	0		124.75s	134,779	0

Comparação rápida

Trocar par de comparação

Kimi K2.6mediumDisponível grátisvsStep 3.7 Flashlow Step 3.7 FlashlowvsMiMo-V2.5medium Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Ring-2.6-1TnonevsQwen3.5-35B-A3Bmedium GPT-5.3 ChatnonevsStep 3.7 Flashlow Step 3.7 FlashlowvsGLM 5V Turbomedium Step 3.7 FlashlowvsGLM 5.1medium GPT-5.2mediumvsStep 3.7 Flashlow GPT-5.4 MinimediumvsStep 3.7 Flashlow Gemini 3.1 Flash Lite PreviewnonevsStep 3.7 Flashlow Claude Opus 4.8nonevsStep 3.7 Flashlow Qwen3.5-35B-A3BmediumvsStep 3.7 Flashhigh