#99

Mercury 2

Inception প্রকাশ: 2026-02-24 পরীক্ষিত হয়েছে: 2026-04-11 01:44 inception/mercury-2::none

(medium) (none)

সারাংশ

Mercury 2 AI BENCHY-তে 4.8 স্কোর করে এবং #99 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 27.8%, মোট খরচ $0.007, এবং গড় response time 613ms.

Mercury 2 কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম। একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

স্কোর

4.8

ধারাবাহিকতা

9.0

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.007

মোট আউটপুট টোকেন

1,625

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.250 / 1M

আউটপুট মূল্য

$0.750 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 14

প্রতি চেষ্টায় পাস রেট: 27.8%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

613ms

প্রতিক্রিয়া সময় (সর্বোচ্চ): 1.27s

প্রতিক্রিয়া সময় (মোট): 11.04s

ভুল উত্তর: 13 নির্দেশনা অনুসরণ করা হয়নি: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#99 Mercury 2

none

খরচ: $0.002
সময়: 1.8s
টোকেন: 1,514 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:13 নতুন টেস্ট যোগ হয়েছে	4.6	10.0	$0.030	তুলনা করুন
2026-06-04 14:27 নতুন টেস্ট যোগ হয়েছে	4.5	10.0	$0.011	তুলনা করুন
2026-05-22 00:39 স্যুইট পরিবর্তিত হয়েছে	4.6	10.0	$0.009	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	4.8	প্রযোজ্য নয়	$0.007	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:44 · প্রথম নথিভুক্ত রান	4.8	9.0	প্রযোজ্য নয়	4/18	2	1,625	$0.007	613ms
2026-05-22 00:39 · স্যুইট পরিবর্তিত হয়েছে	4.6	9.1	10.0	4/20	2	2,984	$0.009	614ms
পার্থক্য	+0.2	-0.1		0	0	-1359	-$0.003	-1ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Mercury 2nonevsInklingnone Mercury 2nonevsQwen3 Coder Nextnone Mercury 2nonevsMistral Small 4medium Mercury 2nonevsLing-2.6-1Tnone Mercury 2nonevsMiMo-V2.5none Mercury 2nonevsGemini 3 Flash Previewmedium Mercury 2nonevsGemini 3.5 Flashhigh Mercury 2nonevsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য Mercury 2nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.0	10.0
কোডিং	3.6	8.9
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	7.3	5.9
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	4.8	10.0
নির্দেশনা অনুসরণ	6.5	10.0
ধাঁধা সমাধান	3.1	10.0
টুল কলিং	10.0	10.0

Mercury 2

Hamster playing table tennis

#99 Mercury 2

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল