Qwen: Qwen3.5-27B vs StepFun: Step 3.7 Flash

Qwen3.5-27B (medium) lidera na pontuação média com 7.4 vs 7.3. Step 3.7 Flash (low) tem menor custo de benchmark com $0.454 vs $1.627. Step 3.7 Flash (low) é mais rápido com 20.68s vs 111.94s, com taxas de acerto de 72.7% vs 68.2%.

Modelo recomendadoStep 3.7 Flash (low)A pontuação fica perto da melhor aqui (7.3 vs 7.4) e custa cerca de 3.6x menos que Qwen3.5-27B (medium).

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-18

Métrica	Qwen3.5-27B Qwen3.5-27B medium Lançamento: 2026-02-24	Step 3.7 Flash Step 3.7 Flash low Lançamento: 2026-05-29

Métrica	Qwen3.5-27B Qwen3.5-27B medium Lançamento: 2026-02-24	Step 3.7 Flash Step 3.7 Flash low Lançamento: 2026-05-29
Pontuação	7.4	7.3
Posição	#58	#66
Confiabilidade	10.0	10.0
Consistência	8.2	8.1
Testes corretos
Taxa de acerto por tentativa	72.7%	68.2%
Testes instáveis	5	5
Execuções totais	66	66
Custo por resultado	8.324	3.782
Custo total	$1.627	$0.454
Preço de entrada	$0.260 / 1M	$0.200 / 1M
Preço de saída	$2.600 / 1M	$1.150 / 1M
Total de tokens de entrada	111,635	103,833
Tokens de saída	15,999	376,581
Tokens de raciocínio	598,430	0
Tempo de resposta (médio)	111.94s	20.68s
Tempo de resposta (máx.)	1026.43s	124.75s
Tempo de resposta (total)	2462.67s	455.01s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 Qwen3.5-27B

medium

Custo: $0.008
Tempo: 62.0s
Tokens: 3,099 tok

#66 Step 3.7 Flash

low

SVG inválido

Custo: $0.004
Tempo: 25.3s
Tokens: 3,072 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Categoria:

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505
Step 3.7 Flash	8.7	7.9	91.7%	1		4.02s	756	10,896	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	6.2	7.1	55.6%	1		160.69s	7,895	6,381	89,388
Step 3.7 Flash	8.2	7.2	88.9%	1		9.46s	7,437	18,685	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	7.3	5.8	83.3%	1		595.19s	84,417	7,948	279,132
Step 3.7 Flash	7.3	5.8	83.3%	1		66.18s	77,415	93,682	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150
Step 3.7 Flash	7.3	5.8	83.3%	1		2.29s	7,398	2,667	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368
Step 3.7 Flash	5.3	7.2	44.4%	1		43.31s	828	104,487	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147
Step 3.7 Flash	3.4	9.3	0.0%	0		7.00s	525	4,604	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638
Step 3.7 Flash	9.8	10.0	100.0%	0		1.58s	735	1,857	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096
Step 3.7 Flash	5.5	9.9	33.3%	0		1.84s	756	3,564	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323
Step 3.7 Flash	10.0	10.0	100.0%	0		3.25s	7,746	1,360	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683
Step 3.7 Flash	3.0	10.0	0.0%	0		124.75s	237	134,779	0

Comparação rápida

Trocar par de comparação

Claude Opus 4.8nonevsStep 3.7 Flashlow Kimi K2.6mediumvsStep 3.7 Flashlow KAT-Coder-Pro V2.5highvsStep 3.7 Flashlow Gemini 3.1 Flash LitemediumvsStep 3.7 Flashlow GPT-5.6 TerralowvsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow Qwen3.5 Plus 2026-04-20mediumvsStep 3.7 Flashlow GPT-5.3 ChatnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium KAT-Coder-Pro V2.5lowvsQwen3.5-27Bmedium Claude Sonnet 4.6nonevsStep 3.7 Flashlow Qwen3.7 PlusnonevsStep 3.7 Flashlow