AI BENCHY
Advertise here
#44

Mercury 2

Inception প্রকাশ: 2026-02-24 পরীক্ষিত হয়েছে: 2026-06-04 14:27 inception/mercury-2::medium
(medium) (none)

সারাংশ

Mercury 2 AI BENCHY-তে 7.5 স্কোর করে এবং #44 স্থানে আছে। এর reliability 10.0, pass rate 54.0%, মোট খরচ $0.058, এবং গড় response time 2.24s.

Mercury 2 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #2; আর ডেটা পার্সিং ও নিষ্কাশন এর দুর্বলতম ক্ষেত্র, rank #14. একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

ধারাবাহিকতা

8.8

মোট আউটপুট টোকেন

65,267

মোট ইনপুট টোকেন

35,116

ইনপুট মূল্য

$0.250 / 1M

আউটপুট মূল্য

$0.750 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 54.0%

অস্থির টেস্ট

3

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

2.24s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 14.63s

প্রতিক্রিয়া সময় (মোট): 44.72s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#44 Mercury 2

medium
খরচ
$0.002
সময়
2.1s
টোকেন
1,702 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 14:27 নতুন টেস্ট যোগ হয়েছে 6.6 10.0 $0.058 বর্তমান রান
2026-05-22 00:40 পুনরায় পরীক্ষা 6.3 10.0 $0.055 তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান 6.5 প্রযোজ্য নয় $0.047 তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-06-04 14:27 · বর্তমান রান7.58.810.010/21365,26735,116$0.0582.24s
2026-05-22 00:40 · পুনরায় পরীক্ষা6.38.410.08/20462,3970$0.0552.27s
পার্থক্য+1.3+0.40.0+2-1+2870+35116+$0.003-35ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

মূল্যের ইতিহাস

OpenRouter থেকে এই মডেলের ঐতিহাসিক মূল্য তথ্য।

তারিখ ইনপুট মূল্য আউটপুট মূল্য
2026-06-04 15:40 $0.250 / 1M $0.750 / 1M

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 6.9 9.9
কোডিং 8.2 7.7
সমন্বিত 10.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 7.3 5.9
ডোমেইন-নির্দিষ্ট 2.9 7.2
Sadharon Buddhimotta 4.8 10.0
নির্দেশনা অনুসরণ 10.0 10.0
ধাঁধা সমাধান 5.4 10.0
টুল কলিং 10.0 10.0
সাধারণ জ্ঞান 3.0 10.0

তুলনা করা মডেল