AI BENCHY
Advertise here

#59

Mercury 2

Inception প্রকাশ: 2026-02-24 পরীক্ষিত হয়েছে: 2026-04-11 01:44 inception/mercury-2::medium
(medium) (none)

ধারাবাহিকতা

8.6

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

52,305

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.250 / 1M

আউটপুট মূল্য

$0.750 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 10

প্রতি চেষ্টায় পাস রেট: 53.7%

অস্থির টেস্ট

3

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

2.21s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 14.63s

প্রতিক্রিয়া সময় (মোট): 37.51s

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-22 00:40 পুনরায় পরীক্ষা 6.3 10.0 $0.055 তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান 6.5 প্রযোজ্য নয় $0.047 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-11 01:44 · প্রথম নথিভুক্ত রান6.58.6প্রযোজ্য নয়8/18352,3050$0.0472.21s
2026-05-22 00:40 · পুনরায় পরীক্ষা6.38.410.08/20462,3970$0.0552.27s
পার্থক্য+0.2+0.20-1-100920-$0.009-65ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 6.9 9.9
কোডিং 10.0 10.0
সমন্বিত 10.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 7.3 5.9
ডোমেইন-নির্দিষ্ট 2.9 7.2
Sadharon Buddhimotta 4.8 10.0
নির্দেশনা অনুসরণ 10.0 10.0
ধাঁধা সমাধান 3.9 7.5
টুল কলিং 10.0 10.0

তুলনা করা মডেল