AI BENCHY
Compară Grafice Metodologie
❤️ Made by XCS
Your ad here

#13

Step 3.5 Flash

Stepfun · Lansare: 2026-02-01 · stepfun/step-3.5-flash::medium

Cost per rezultat

0.000

Consistență

9.1

Cost total

$0.000

Teste corecte

Teste greșite: 6

Rată de trecere pe încercare: 68.8%

Teste instabile

2

Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).

Timp de răspuns (mediu)

29.10s

Timp de răspuns (maxim): 170.45s

Timp de răspuns (total): 290.96s

Nu a urmat instrucțiunile: 3 Răspuns greșit: 3

Grafice

Alege primul model, apoi fă clic pe al doilea model pentru a deschide o pagină alăturată.

Comparație rapidă

Defalcare pe categorii

Categorie Scor mediu Consistență Teste corecte
Anti-AI Tricks 10.0 10.0
Combined 10.0 10.0
Data parsing and extraction 10.0 10.0
Domain specific 4.0 7.2
General Intelligence 6.0 10.0
Instructions following 9.0 6.8
Puzzle Solving 4.0 10.0
Tool Calling 10.0 10.0