Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

OpenAI: GPT-5.4 vs StepFun: Step 3.7 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-03

Métrica GPT-5.4 GPT-5.4 medium Lançamento: 2026-03-05 Step 3.7 Flash Step 3.7 Flash low Lançamento: 2026-05-29
Pontuação 7.9 7.4
Posição #27 #56
Confiabilidade 10.0 10.0
Consistência 8.5 8.7
Testes corretos
Taxa de acerto por tentativa 75.0% 68.3%
Testes instáveis 4 3
Execuções totais 60 60
Custo por resultado 8.765 2.796
Custo total $1.140 $0.336
Preço de entrada $2.500 / 1M $0.200 / 1M
Preço de saída $15.000 / 1M $1.150 / 1M
Total de tokens de entrada 31,489 37,458
Tokens de saída 2,221 285,209
Tokens de raciocínio 68,486 0
Tempo de resposta (médio) 22.31s 16.06s
Tempo de resposta (máx.) 100.41s 124.75s
Tempo de resposta (total) 446.17s 321.11s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 8.3 10.0 75.0% 0 4.11s 606 240 1,511
Step 3.7 Flash 8.7 7.9 91.7% 1 4.02s 756 10,896 0
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 8.2 6.7 83.3% 1 54.98s 4,686 412 19,995
Step 3.7 Flash 10.0 10.0 100.0% 0 9.43s 4,794 14,569 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 10.0 10.0 100.0% 0 20.57s 11,019 301 3,543
Step 3.7 Flash 10.0 10.0 100.0% 0 7.98s 13,683 6,426 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 10.0 10.0 100.0% 0 5.32s 7,140 234 804
Step 3.7 Flash 7.3 5.8 83.3% 1 2.29s 7,398 2,667 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 5.3 7.2 44.4% 1 74.27s 619 61 34,748
Step 3.7 Flash 5.3 7.2 44.4% 1 43.31s 828 104,487 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 4.7 3.1 33.3% 1 4.92s 477 145 321
Step 3.7 Flash 3.4 9.3 0.0% 0 7.00s 525 4,604 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 10.0 10.0 100.0% 0 3.11s 660 93 897
Step 3.7 Flash 9.8 10.0 100.0% 0 1.58s 735 1,857 0
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 8.2 7.2 88.9% 1 9.14s 642 441 3,815
Step 3.7 Flash 5.5 9.9 33.3% 0 1.84s 756 3,564 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 10.0 10.0 100.0% 0 13.28s 5,445 264 1,031
Step 3.7 Flash 10.0 10.0 100.0% 0 3.25s 7,746 1,360 0
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
GPT-5.4 3.0 10.0 0.0% 0 13.95s 195 30 1,821
Step 3.7 Flash 3.0 10.0 0.0% 0 124.75s 237 134,779 0

Comparação rápida

Trocar par de comparação