#13
Stepfun · Veröffentlichung: 2026-02-01 · stepfun/step-3.5-flash::medium
Instabile Tests
2
Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).
Anweisungen nicht befolgt: 3 Falsche Antwort: 3
Diagramme
Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.
Schnellvergleich
Step 3.5 FlashmediumKostenlos verfügbarvsGemini 3.1 Flash Lite PreviewmediumStep 3.5 FlashmediumKostenlos verfügbarvsGLM 5mediumStep 3.5 FlashmediumKostenlos verfügbarvsClaude Sonnet 4.6mediumStep 3.5 FlashmediumKostenlos verfügbarvsGPT-5.2 ChatnoneStep 3.5 FlashmediumKostenlos verfügbarvsQwen3.5-122B-A10BmediumStep 3.5 FlashmediumKostenlos verfügbarvsGemini 2.5 FlashmediumStep 3.5 FlashmediumKostenlos verfügbarvsGemini 3 Flash PreviewmediumStep 3.5 FlashmediumKostenlos verfügbarvsGemini 3.1 Pro PreviewmediumStep 3.5 FlashmediumKostenlos verfügbarvsTrinity Large PreviewnoneKostenlos verfügbar
Kategorieaufschlüsselung
| Kategorie | Ø-Score | Konsistenz | Korrekte Tests |
|---|---|---|---|
| Anti-AI Tricks | 10.0 | 10.0 | |
| Combined | 10.0 | 10.0 | |
| Data parsing and extraction | 10.0 | 10.0 | |
| Domain specific | 4.0 | 7.2 | |
| General Intelligence | 6.0 | 10.0 | |
| Instructions following | 9.0 | 6.8 | |
| Puzzle Solving | 4.0 | 10.0 | |
| Tool Calling | 10.0 | 10.0 |