AI BENCHY
Advertise here
#74

Step 3.7 Flash

Stepfun প্রকাশ: 2026-05-29 পরীক্ষিত হয়েছে: 2026-05-29 11:53 stepfun/step-3.7-flash::high
(high) (medium) (low)

সারাংশ

Step 3.7 Flash AI BENCHY-তে 7.1 স্কোর করে এবং #74 স্থানে আছে। এর reliability 9.9, pass rate 65.8%, মোট খরচ $0.960, এবং গড় response time 49.43s.

ধারাবাহিকতা

8.2

মোট আউটপুট টোকেন

828,084

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.200 / 1M

আউটপুট মূল্য

$1.150 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 9

প্রতি চেষ্টায় পাস রেট: 65.8%

অস্থির টেস্ট

4

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

49.43s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 192.75s

প্রতিক্রিয়া সময় (মোট): 988.58s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#74 Step 3.7 Flash

high
খরচ
$0.007
সময়
63.6s
টোকেন
6,030 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 14:10 নতুন টেস্ট যোগ হয়েছে 7.0 10.0 $1.148 তুলনা করুন
2026-05-29 11:53 প্রথম রান 7.1 9.9 $0.960 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-05-29 11:53 · প্রথম রান7.18.29.911/204828,0840$0.96049.43s
2026-06-04 14:10 · নতুন টেস্ট যোগ হয়েছে7.08.210.011/214991,35538,391$1.14864.46s
পার্থক্য+0.10.0-0.100-163271-38391-$0.189-15027ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 10.0 10.0
কোডিং 3.6 4.6
সমন্বিত 10.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 4.1 4.4
Sadharon Buddhimotta 5.5 10.0
নির্দেশনা অনুসরণ 9.8 10.0
ধাঁধা সমাধান 5.3 7.2
টুল কলিং 10.0 10.0
সাধারণ জ্ঞান 3.0 10.0

তুলনা করা মডেল