#13
Stepfun · Lanzamiento: 2026-02-01 · stepfun/step-3.5-flash::medium
Pruebas inestables
2
Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).
Tiempo de respuesta (promedio)
29.10s
Tiempo de respuesta (máximo): 170.45s
Tiempo de respuesta (total): 290.96s
No siguió las instrucciones: 3 Respuesta incorrecta: 3
Gráficos
Elige el primer modelo y luego haz clic en un segundo modelo para abrir una página lado a lado.
Comparación rápida
Step 3.5 FlashmediumDisponible gratisvsGemini 3.1 Flash Lite PreviewmediumStep 3.5 FlashmediumDisponible gratisvsGLM 5mediumStep 3.5 FlashmediumDisponible gratisvsClaude Sonnet 4.6mediumStep 3.5 FlashmediumDisponible gratisvsGPT-5.2 ChatnoneStep 3.5 FlashmediumDisponible gratisvsQwen3.5-122B-A10BmediumStep 3.5 FlashmediumDisponible gratisvsGemini 2.5 FlashmediumStep 3.5 FlashmediumDisponible gratisvsGemini 3 Flash PreviewmediumStep 3.5 FlashmediumDisponible gratisvsGemini 3.1 Pro PreviewmediumStep 3.5 FlashmediumDisponible gratisvsTrinity Large PreviewnoneDisponible gratis
Desglose por categoría
| Categoría | Puntaje prom. | Consistencia | Pruebas correctas |
|---|---|---|---|
| Anti-AI Tricks | 10.0 | 10.0 | |
| Combined | 10.0 | 10.0 | |
| Data parsing and extraction | 10.0 | 10.0 | |
| Domain specific | 4.0 | 7.2 | |
| General Intelligence | 6.0 | 10.0 | |
| Instructions following | 9.0 | 6.8 | |
| Puzzle Solving | 4.0 | 10.0 | |
| Tool Calling | 10.0 | 10.0 |