AI BENCHY
Vergleichen Diagramme Methodik
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#13

Step 3.5 Flash

Stepfun · Veröffentlichung: 2026-02-01 · stepfun/step-3.5-flash::medium

Ø-Score

7.4

Kosten pro Ergebnis

0.000

Konsistenz

9.1

Gesamtkosten

$0.000

Korrekte Tests

Falsche Tests: 6

Erfolgsquote pro Versuch: 68.8%

Instabile Tests

2

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

29.10s

Antwortzeit (Maximum): 170.45s

Antwortzeit (Gesamt): 290.96s

Anweisungen nicht befolgt: 3 Falsche Antwort: 3

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Schnellvergleich

Kategorieaufschlüsselung

Kategorie Ø-Score Konsistenz Korrekte Tests
Anti-AI Tricks 10.0 10.0
Combined 10.0 10.0
Data parsing and extraction 10.0 10.0
Domain specific 4.0 7.2
General Intelligence 6.0 10.0
Instructions following 9.0 6.8
Puzzle Solving 4.0 10.0
Tool Calling 10.0 10.0