AI BENCHY
Vergelijken
❤️ Made by XCS

Modelnaam

StepFun: Step 3.5 Flash

Benchmarks gegenereerd uit Aibenchy-testsuites op : 19 feb 2026

Metriek StepFun: Step 3.5 Flash
Rang#18
BedrijfStepfun
Score 4.92
Consistentie 7.34
Kosten per resultaat 0.0000
Totale kosten $0.00000
Correcte tests 5/12
Slaagpercentage per poging 58.3%
Instabiele tests 4
Uitvoer-tokens 46,871
Redeneer-tokens 95,440

Categorie-uitsplitsing

Categorie Volledig geslaagde tests Score Consistentie Slaagpercentage per poging Instabiele tests Redeneerscore Kosten
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

Vergeleken modellen

Vergelijk StepFun: Step 3.5 Flash met...

#17 · MiniMax

MiniMax: MiniMax M2.5

Redenering (medium)

Score: 5.08

Consistentie: 6.00

Slaagpercentage per poging: 61.1%

Instabiele tests: 6

Kosten per resultaat: 4.0276

Correcte tests: 5/12

Totale kosten: $0.20138

Vergelijken

#19 · OpenAI

OpenAI: GPT-4o-mini

Zonder redenering

Score: 4.00

Consistentie: 9.98

Slaagpercentage per poging: 25.0%

Instabiele tests: 0

Kosten per resultaat: 0.0576

Correcte tests: 3/12

Totale kosten: $0.00173

Vergelijken

#16 · Anthropic

Anthropic: Claude Opus 4.6

Redenering (medium)

Score: 5.42

Consistentie: 8.60

Slaagpercentage per poging: 55.5%

Instabiele tests: 2

Kosten per resultaat: 12.8695

Correcte tests: 6/12

Totale kosten: $0.77217

Vergelijken

Snelle vergelijking

Vergelijk StepFun: Step 3.5 Flash met...