AI BENCHY
Compară
❤️ Made by XCS

Nume model

StepFun: Step 3.5 Flash

Benchmark-urile au fost generate din suitele de teste Aibenchy la : 19 feb. 2026

Metrică StepFun: Step 3.5 Flash
Rang#18
CompanieStepfun
Score 4.92
Consistență 7.34
Cost per rezultat 0.0000
Cost total $0.00000
Teste corecte 5/12
Rată de trecere pe încercare 58.3%
Teste instabile 4
Tokenuri de ieșire 46,871
Tokenuri de raționament 95,440

Defalcare pe categorii

Categorie Teste trecute complet Score Consistență Rată de trecere pe încercare Teste instabile Scor de raționament Cost
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

Modele comparate

Compară StepFun: Step 3.5 Flash cu...

#17 · MiniMax

MiniMax: MiniMax M2.5

Raționament (medium)

Score: 5.08

Consistență: 6.00

Rată de trecere pe încercare: 61.1%

Teste instabile: 6

Cost per rezultat: 4.0276

Teste corecte: 5/12

Cost total: $0.20138

Compară

#19 · OpenAI

OpenAI: GPT-4o-mini

Fără raționament

Score: 4.00

Consistență: 9.98

Rată de trecere pe încercare: 25.0%

Teste instabile: 0

Cost per rezultat: 0.0576

Teste corecte: 3/12

Cost total: $0.00173

Compară

#16 · Anthropic

Anthropic: Claude Opus 4.6

Raționament (medium)

Score: 5.42

Consistență: 8.60

Rată de trecere pe încercare: 55.5%

Teste instabile: 2

Cost per rezultat: 12.8695

Teste corecte: 6/12

Cost total: $0.77217

Compară

Comparație rapidă

Compară StepFun: Step 3.5 Flash cu...