AI BENCHY
Vergelijken Grafieken Methodologie
โค๏ธ Made by XCS
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

#13

Step 3.5 Flash

Stepfun ยท Releasedatum: 2026-02-01 ยท stepfun/step-3.5-flash::medium

Gem. score

7.4

Kosten per resultaat

0.000

Consistentie

9.1

Totale kosten

$0.000

Correcte tests

Foute tests: 6

Slaagpercentage per poging: 68.8%

Instabiele tests

2

Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).

Responstijd (gem.)

29.10s

Responstijd (max): 170.45s

Responstijd (totaal): 290.96s

Instructies niet gevolgd: 3 Verkeerd antwoord: 3

Grafieken

Kies eerst het eerste model en klik daarna op een tweede model om een zij-aan-zijpagina te openen.

Snelle vergelijking

Categorie-uitsplitsing

Categorie Gem. score Consistentie Correcte tests
Anti-AI Tricks 10.0 10.0
Combined 10.0 10.0
Data parsing and extraction 10.0 10.0
Domain specific 4.0 7.2
General Intelligence 6.0 10.0
Instructions following 9.0 6.8
Puzzle Solving 4.0 10.0
Tool Calling 10.0 10.0