#13
Stepfun · Lansare: 2026-02-01 · stepfun/step-3.5-flash::medium
Teste instabile
2
Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).
Nu a urmat instrucțiunile: 3 Răspuns greșit: 3
Grafice
Alege primul model, apoi fă clic pe al doilea model pentru a deschide o pagină alăturată.
Comparație rapidă
Step 3.5 FlashmediumDisponibil gratuitvsGemini 3.1 Flash Lite PreviewmediumStep 3.5 FlashmediumDisponibil gratuitvsGLM 5mediumStep 3.5 FlashmediumDisponibil gratuitvsClaude Sonnet 4.6mediumStep 3.5 FlashmediumDisponibil gratuitvsGPT-5.2 ChatnoneStep 3.5 FlashmediumDisponibil gratuitvsQwen3.5-122B-A10BmediumStep 3.5 FlashmediumDisponibil gratuitvsGemini 2.5 FlashmediumStep 3.5 FlashmediumDisponibil gratuitvsGemini 3 Flash PreviewmediumStep 3.5 FlashmediumDisponibil gratuitvsGemini 3.1 Pro PreviewmediumStep 3.5 FlashmediumDisponibil gratuitvsTrinity Large PreviewnoneDisponibil gratuit
Defalcare pe categorii
| Categorie | Scor mediu | Consistență | Teste corecte |
|---|---|---|---|
| Anti-AI Tricks | 10.0 | 10.0 | |
| Combined | 10.0 | 10.0 | |
| Data parsing and extraction | 10.0 | 10.0 | |
| Domain specific | 4.0 | 7.2 | |
| General Intelligence | 6.0 | 10.0 | |
| Instructions following | 9.0 | 6.8 | |
| Puzzle Solving | 4.0 | 10.0 | |
| Tool Calling | 10.0 | 10.0 |