#43
Stepfun
Lançamento: 2026-02-01
Testado em: 2026-05-08 15:30
stepfun/step-3.5-flash::medium
(medium)
(none)
7.6
Consistência
9.2
10.0
$0.011
Total de tokens de saída
251,708
Total de tokens de entrada
0
Preço de entrada
$0.100 / 1M
Preço de saída
$0.300 / 1M
Testes instáveis
2
Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).
41.66s
Tempo de resposta (máx.): 170.45s
Tempo de resposta (total): 499.91s
Histórico de execuções
| Testado em | Pontuação | Confiabilidade | Testes corretos | Custo total | Comparar |
|---|---|---|---|---|---|
| 2026-05-22 00:30 Suite alterada | 7.4 | 9.3 | $0.015 | Comparar | |
| 2026-05-08 15:30 Suite alterada | 7.6 | 10.0 | $0.011 | Execução atual | |
| 2026-04-11 00:35 Primeira execução registrada | 7.9 | N/D | $0.000 | Comparar |
Esta execução usou uma suite de benchmark diferente. Considere as mudanças na suite ao analisar a evolução histórica.
Gráficos
Escolha o primeiro modelo e depois clique em um segundo modelo para abrir uma página lado a lado.
Pontuação vs Custo total
Tempo de resposta (médio)
Pontuação vs Tempo de resposta (médio)
Total de tokens de saída
Pontuação vs Total de tokens de saída
Comparação rápida
Step 3.5 FlashmediumvsKimi K2.6mediumDisponível grátisStep 3.5 FlashmediumvsGLM 5.1mediumStep 3.5 FlashmediumvsGemini 3.1 Flash Lite PreviewnoneStep 3.5 FlashmediumvsGPT-5.3 ChatnoneStep 3.5 FlashmediumvsQwen3.5 Plus 2026-04-20mediumStep 3.5 FlashmediumvsMiMo-V2.5mediumStep 3.5 FlashmediumvsGemini 3 Flash PreviewmediumStep 3.5 FlashmediumvsGemini 3.5 FlashhighStep 3.5 FlashmediumvsRing-2.6-1TmediumStep 3.5 FlashmediumvsGemini 3.5 Flashlow
Detalhamento por categoria
| Categoria | Pontuação | Consistência | Testes corretos |
|---|---|---|---|
| Truques anti-IA | 10.0 | 10.0 | |
| Combinado | 10.0 | 10.0 | |
| Análise e extração de dados | 10.0 | 10.0 | |
| Específico do domínio | 5.3 | 7.2 | |
| Inteligência geral | 5.5 | 10.0 | |
| Seguimento de instruções | 8.5 | 6.8 | |
| Resolução de quebra-cabeças | 5.3 | 10.0 | |
| Chamada de ferramentas | 10.0 | 10.0 | |
| Conhecimentos gerais | 3.0 | 10.0 |