#45

Mimo V2 PRO

Xiaomi প্রকাশ: 2026-03-18 পরীক্ষিত হয়েছে: 2026-05-22 00:25 xiaomi/mimo-v2-pro::medium

(medium) (none)

সারাংশ

Mimo V2 PRO AI BENCHY-তে 7.6 স্কোর করে এবং #45 স্থানে আছে। এর reliability 9.5, pass rate 76.7%, মোট খরচ $0.295, এবং গড় response time 22.19s.

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Hunter Alpha ছিল Mimo V2 PRO-এর স্টেলথ সংস্করণ।

স্কোর

7.6

ধারাবাহিকতা

7.9

নির্ভরযোগ্যতা

9.5

মোট খরচ (বর্তমান মূল্য)

$0.295

মোট আউটপুট টোকেন

84,435

মোট ইনপুট টোকেন

ইনপুট মূল্য

$1.000 / 1M

আউটপুট মূল্য

$3.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 8

প্রতি চেষ্টায় পাস রেট: 76.7%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

22.19s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 136.29s

প্রতিক্রিয়া সময় (মোট): 443.77s

ভুল উত্তর: 5 অতিরিক্ত ফরম্যাটিং: 1 নির্দেশনা অনুসরণ করা হয়নি: 1 টাইমআউট: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#45 MiMo-V2-Pro

medium

This model has been deprecated. It is recommended to migrate to xiaomi/mimo-v2.5-pro

খরচ: $0.000
সময়: 0.1s
টোকেন: 0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে	6.3	9.6	$0.333 ↑	তুলনা করুন
2026-05-22 00:25 স্যুইট পরিবর্তিত হয়েছে	7.6	9.5	$0.295	বর্তমান রান
2026-05-08 15:32 স্যুইট পরিবর্তিত হয়েছে	7.7	9.4	$0.212	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	8.1	প্রযোজ্য নয়	$0.159	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	বেঞ্চমার্ক কভারেজ	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-22 00:25 · স্যুইট পরিবর্তিত হয়েছে	20/20 টেস্ট · 60/60 প্রচেষ্টা	7.6	7.9	9.5	12/20	5	84,435	$0.295	22.19s
2026-05-08 15:32 · স্যুইট পরিবর্তিত হয়েছে	19/19 টেস্ট · 57/57 প্রচেষ্টা	7.7	8.2	9.4	12/19	4	58,330	$0.212	16.18s
পার্থক্য	—	-0.1	-0.3	+0.1	0	+1	+26105	+$0.083	+6005ms

বেঞ্চমার্ক কভারেজ আলাদা: 20/20 টেস্ট · 60/60 প্রচেষ্টা (লক্ষ্য: প্রতি টেস্টে 3টি পুনরাবৃত্তি) বনাম 19/19 টেস্ট · 57/57 প্রচেষ্টা (লক্ষ্য: প্রতি টেস্টে 3টি পুনরাবৃত্তি)। মোট মান ও পুনরাবৃত্তি-সংবেদনশীল মেট্রিক সরাসরি তুলনাযোগ্য নয়।

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	7.5	6.0
সমন্বিত	4.7	1.6
ডেটা পার্সিং ও নিষ্কাশন	7.3	5.8
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	9.9	10.0
ধাঁধা সমাধান	6.4	4.4
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Mimo V2 PRO

Hamster playing table tennis

#45 MiMo-V2-Pro

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল