AI BENCHY
Bandingkan
❤️ Made by XCS

Nama Model

StepFun: Step 3.5 Flash

Benchmark dihasilkan dari suite pengujian Aibenchy pada : 19 Feb 2026

Metrik StepFun: Step 3.5 Flash
Peringkat#18
PerusahaanStepfun
Score 4.92
Konsistensi 7.34
Biaya per hasil 0.0000
Total Biaya $0.00000
Tes benar 5/12
Tingkat lulus per percobaan 58.3%
Tes tidak stabil 4
Token output 46,871
Token penalaran 95,440

Rincian Kategori

Kategori Tes lulus penuh Score Konsistensi Tingkat lulus per percobaan Tes tidak stabil Skor penalaran Biaya
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

Model yang Dibandingkan

Bandingkan StepFun: Step 3.5 Flash dengan...

#17 · MiniMax

MiniMax: MiniMax M2.5

Penalaran (medium)

Score: 5.08

Konsistensi: 6.00

Tingkat lulus per percobaan: 61.1%

Tes tidak stabil: 6

Biaya per hasil: 4.0276

Tes benar: 5/12

Total Biaya: $0.20138

Bandingkan

#19 · OpenAI

OpenAI: GPT-4o-mini

Tanpa penalaran

Score: 4.00

Konsistensi: 9.98

Tingkat lulus per percobaan: 25.0%

Tes tidak stabil: 0

Biaya per hasil: 0.0576

Tes benar: 3/12

Total Biaya: $0.00173

Bandingkan

#16 · Anthropic

Anthropic: Claude Opus 4.6

Penalaran (medium)

Score: 5.42

Konsistensi: 8.60

Tingkat lulus per percobaan: 55.5%

Tes tidak stabil: 2

Biaya per hasil: 12.8695

Tes benar: 6/12

Total Biaya: $0.77217

Bandingkan

Perbandingan Cepat

Bandingkan StepFun: Step 3.5 Flash dengan...