OpenAI: GPT-5.5 vs StepFun: Step 3.7 Flash

A pontuação média está praticamente empatada em 6.9 vs 6.9. GPT-5.5 tem menor custo de benchmark com $0.544 vs $1.207. GPT-5.5 é mais rápido com 2.36s vs 64.68s, com taxas de acerto de 56.1% vs 63.6%.

Modelo recomendadoGPT-5.5Tem a melhor pontuação aqui (6.9) e custa cerca de 2.2x menos que Step 3.7 Flash (high).

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-24

Métrica	GPT-5.5 GPT-5.5 none Lançamento: 2026-04-24	Step 3.7 Flash Step 3.7 Flash high Lançamento: 2026-05-29

Métrica	GPT-5.5 GPT-5.5 none Lançamento: 2026-04-24	Step 3.7 Flash Step 3.7 Flash high Lançamento: 2026-05-29
Pontuação	6.9	6.9
Posição	#91	#90
Confiabilidade	10.0	10.0
Consistência	8.9	8.0
Testes corretos
Taxa de acerto por tentativa	56.1%	63.6%
Testes instáveis	3	5
Execuções totais	66	66
Custo por resultado	4.945	10.973
Custo total	$0.544	$1.207
Preço de entrada	$5.000 / 1M	$0.200 / 1M
Preço de saída	$30.000 / 1M	$1.150 / 1M
Total de tokens de entrada	79,285	98,691
Tokens de saída	4,915	1,032,395
Tokens de raciocínio	0	0
Tempo de resposta (médio)	2.36s	64.68s
Tempo de resposta (máx.)	12.24s	364.99s
Tempo de resposta (total)	51.88s	1423.01s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#91 GPT-5.5

none

Custo: $0.090
Tempo: 54.3s
Tokens: 3,063 tok

#90 Step 3.7 Flash

high

Custo: $0.007
Tempo: 63.6s
Tokens: 6,030 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Categoria:

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	6.5	10.0	50.0%	0		8.90s	56,092	3,244	0
Step 3.7 Flash	8.7	6.9	83.3%	1		41.23s	73,938	49,842	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Comparação rápida

Trocar par de comparação

Qwen3.6 FlashmediumvsStep 3.7 Flashhigh GPT-5.5nonevsQwen3.6 Flashmedium Step 3.7 FlashhighvsMiMo-V2.5-Promedium GPT-5.5nonevsMiMo-V2.5-Promedium Gemini 3.5 FlashminimalvsGPT-5.5none Gemini 3.5 FlashminimalvsStep 3.7 Flashhigh GPT-5.6 SolnonevsStep 3.7 Flashhigh DeepSeek V4 PrononevsStep 3.7 Flashhigh KAT-Coder-Pro V2.5mediumvsStep 3.7 Flashhigh KAT-Coder-Pro V2.5mediumvsGPT-5.5none Seed-2.0-MinimediumvsStep 3.7 Flashhigh Seed-2.0-MinimediumvsGPT-5.5none