#43

Step 3.5 Flash

Stepfun প্রকাশ: 2026-02-01 পরীক্ষিত হয়েছে: 2026-05-08 15:30 stepfun/step-3.5-flash::medium

(medium) (none)

সারাংশ

Step 3.5 Flash AI BENCHY-তে 7.6 স্কোর করে এবং #43 স্থানে আছে। এর reliability 10.0, pass rate 66.7%, মোট খরচ $0.011, এবং গড় response time 41.66s.

Step 3.5 Flash কে আলাদা করে যা: এটি ডেটা পার্সিং ও নিষ্কাশন-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর ধাঁধা সমাধান এর দুর্বলতম ক্ষেত্র, rank #17. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

7.6

ধারাবাহিকতা

9.2

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.011

মোট আউটপুট টোকেন

251,708

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.100 / 1M

আউটপুট মূল্য

$0.300 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 7

প্রতি চেষ্টায় পাস রেট: 66.7%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

41.66s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 170.45s

প্রতিক্রিয়া সময় (মোট): 499.91s

ভুল উত্তর: 4 নির্দেশনা অনুসরণ করা হয়নি: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#43 Step 3.5 Flash

medium

খরচ: $0.008
সময়: 277.1s
টোকেন: 23,695 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:25 নতুন টেস্ট যোগ হয়েছে	6.0	9.2	$0.108 ↑	তুলনা করুন
2026-06-04 14:12 নতুন টেস্ট যোগ হয়েছে	7.2	8.9	$0.070 ↑	তুলনা করুন
2026-05-22 00:30 স্যুইট পরিবর্তিত হয়েছে	7.4	9.3	$0.015	তুলনা করুন
2026-05-08 15:30 স্যুইট পরিবর্তিত হয়েছে	7.6	10.0	$0.011	বর্তমান রান
2026-04-11 00:35 প্রথম নথিভুক্ত রান	7.9	প্রযোজ্য নয়	$0.000	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-08 15:30 · স্যুইট পরিবর্তিত হয়েছে	7.6	9.2	10.0	11/18	2	251,708	$0.011	41.66s
2026-05-22 00:30 · স্যুইট পরিবর্তিত হয়েছে	7.4	8.7	9.3	11/19	3	263,806	$0.015	43.29s
পার্থক্য	+0.2	+0.5	+0.7	0	-1	-12098	-$0.004	-1629ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Step 3.5 FlashmediumvsInklinglow Step 3.5 FlashmediumvsQwen3.5-Flashnone Step 3.5 FlashmediumvsGemini 3.1 Flash Litenone Step 3.5 FlashmediumvsQwen3.5 Plus 2026-04-20none Step 3.5 Flashmediumvsgpt-oss-120bmedium Step 3.5 FlashmediumvsQwen3.5-35B-A3Bnone Step 3.5 FlashmediumvsGemini 3 Flash Previewmedium Step 3.5 FlashmediumvsGemini 3.5 Flashhigh Step 3.5 FlashmediumvsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য Step 3.5 FlashmediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	5.5	10.0
নির্দেশনা অনুসরণ	8.5	6.8
ধাঁধা সমাধান	5.3	10.0
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#43 Step 3.5 Flash

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল