#26

Mimo V2 PRO

Xiaomi প্রকাশ: 2026-03-18 পরীক্ষিত হয়েছে: 2026-04-11 01:44 xiaomi/mimo-v2-pro::medium

(medium) (none)

সারাংশ

Mimo V2 PRO AI BENCHY-তে 8.1 স্কোর করে এবং #26 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 77.8%, মোট খরচ $0.159, এবং গড় response time 12.27s.

Mimo V2 PRO কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Hunter Alpha ছিল Mimo V2 PRO-এর স্টেলথ সংস্করণ।

স্কোর

8.1

ধারাবাহিকতা

8.6

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.159

মোট আউটপুট টোকেন

40,680

মোট ইনপুট টোকেন

ইনপুট মূল্য

$1.000 / 1M

আউটপুট মূল্য

$3.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 6

প্রতি চেষ্টায় পাস রেট: 77.8%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

12.27s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 64.71s

প্রতিক্রিয়া সময় (মোট): 208.56s

ভুল উত্তর: 3 অতিরিক্ত ফরম্যাটিং: 1 নির্দেশনা অনুসরণ করা হয়নি: 1 টাইমআউট: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#26 MiMo-V2-Pro

medium

This model has been deprecated. It is recommended to migrate to xiaomi/mimo-v2.5-pro

খরচ: $0.000
সময়: 0.1s
টোকেন: 0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে	6.3	9.6	$0.333 ↑	তুলনা করুন
2026-05-22 00:25 স্যুইট পরিবর্তিত হয়েছে	7.6	9.5	$0.295	তুলনা করুন
2026-05-08 15:32 স্যুইট পরিবর্তিত হয়েছে	7.7	9.4	$0.212	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	8.1	প্রযোজ্য নয়	$0.159	বর্তমান রান

রান তুলনা

রান	বেঞ্চমার্ক কভারেজ	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:44 · প্রথম নথিভুক্ত রান	18/18 টেস্ট · 48/54 প্রচেষ্টা	8.1	8.6	প্রযোজ্য নয়	12/18	3	40,680	$0.159	12.27s
2026-05-08 15:32 · স্যুইট পরিবর্তিত হয়েছে	19/19 টেস্ট · 57/57 প্রচেষ্টা	7.7	8.2	9.4	12/19	4	58,330	$0.212	16.18s
পার্থক্য	—	+0.4	+0.4		0	-1	-17650	-$0.054	-3915ms

বেঞ্চমার্ক কভারেজ আলাদা: 18/18 টেস্ট · 48/54 প্রচেষ্টা (লক্ষ্য: প্রতি টেস্টে 3টি পুনরাবৃত্তি) বনাম 19/19 টেস্ট · 57/57 প্রচেষ্টা (লক্ষ্য: প্রতি টেস্টে 3টি পুনরাবৃত্তি)। মোট মান ও পুনরাবৃত্তি-সংবেদনশীল মেট্রিক সরাসরি তুলনাযোগ্য নয়।

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	10.0	10.0
সমন্বিত	4.7	1.6
ডেটা পার্সিং ও নিষ্কাশন	7.3	5.8
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	9.9	10.0
ধাঁধা সমাধান	7.0	7.2
টুল কলিং	10.0	10.0

Mimo V2 PRO

Hamster playing table tennis

#26 MiMo-V2-Pro

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল