Navegação
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs StepFun: Step 3.7 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-04

Métrica Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Lançamento: 2026-02-19 Step 3.7 Flash Step 3.7 Flash high Lançamento: 2026-05-29
Pontuação 9.4 7.0
Posição #4 #71
Confiabilidade 10.0 10.0
Consistência 10.0 8.2
Testes corretos
Taxa de acerto por tentativa 90.5% 63.5%
Testes instáveis 0 4
Execuções totais 63 63
Custo por resultado 5.546 10.434
Custo total $1.054 $1.148
Preço de entrada $2.000 / 1M $0.200 / 1M
Preço de saída $12.000 / 1M $1.150 / 1M
Total de tokens de entrada 41,617 38,391
Tokens de saída 1,977 991,355
Tokens de raciocínio 78,896 0
Tempo de resposta (médio) 20.14s 64.46s
Tempo de resposta (máx.) 88.68s 364.99s
Tempo de resposta (total) 281.92s 1353.57s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 498 112 3,218
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 7.9 9.9 66.7% 0 40.17s 8,124 435 41,247
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 17,240 432 9,281
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 7,265 279 3,904
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 635 18 12,424
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 490 108 1,179
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 621 72 2,236
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 6.90s 570 235 3,128
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 6,018 274 982
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 6.27s 156 12 1,297
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0

Comparação rápida

Trocar par de comparação