AI BENCHY
موازنہ کریں
❤️ Made by XCS

ماڈل کا نام

StepFun: Step 3.5 Flash

بینچ مارکس Aibenchy ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے : 19 فروری، 2026

میٹرک StepFun: Step 3.5 Flash
درجہ#18
کمپنیStepfun
Score 4.92
تسلسل 7.34
فی نتیجہ لاگت 0.0000
کل لاگت $0.00000
درست ٹیسٹس 5/12
فی کوشش کامیابی کی شرح 58.3%
غیر مستحکم ٹیسٹ 4
آؤٹ پٹ ٹوکنز 46,871
ریزننگ ٹوکنز 95,440

زمرہ وار تفصیل

زمرہ مکمل طور پر کامیاب ٹیسٹ Score تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ استدلال اسکور لاگت
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

موازنہ کیے گئے ماڈلز

StepFun: Step 3.5 Flash کا موازنہ اس کے ساتھ کریں...

#17 · MiniMax

MiniMax: MiniMax M2.5

استدلال (medium)

Score: 5.08

تسلسل: 6.00

فی کوشش کامیابی کی شرح: 61.1%

غیر مستحکم ٹیسٹ: 6

فی نتیجہ لاگت: 4.0276

درست ٹیسٹس: 5/12

کل لاگت: $0.20138

موازنہ کریں

#19 · OpenAI

OpenAI: GPT-4o-mini

بغیر استدلال

Score: 4.00

تسلسل: 9.98

فی کوشش کامیابی کی شرح: 25.0%

غیر مستحکم ٹیسٹ: 0

فی نتیجہ لاگت: 0.0576

درست ٹیسٹس: 3/12

کل لاگت: $0.00173

موازنہ کریں

#16 · Anthropic

Anthropic: Claude Opus 4.6

استدلال (medium)

Score: 5.42

تسلسل: 8.60

فی کوشش کامیابی کی شرح: 55.5%

غیر مستحکم ٹیسٹ: 2

فی نتیجہ لاگت: 12.8695

درست ٹیسٹس: 6/12

کل لاگت: $0.77217

موازنہ کریں

فوری موازنہ

StepFun: Step 3.5 Flash کا موازنہ اس کے ساتھ کریں...