#37

Mimo V2 PRO

Xiaomi প্রকাশ: 2026-03-18 পরীক্ষিত হয়েছে: 2026-05-08 15:32 xiaomi/mimo-v2-pro::medium

(medium) (none)

সারাংশ

Mimo V2 PRO AI BENCHY-তে 7.7 স্কোর করে এবং #37 স্থানে আছে। এর reliability 9.4, pass rate 77.2%, মোট খরচ $0.212, এবং গড় response time 16.18s.

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Hunter Alpha ছিল Mimo V2 PRO-এর স্টেলথ সংস্করণ।

স্কোর

7.7

ধারাবাহিকতা

8.2

নির্ভরযোগ্যতা

9.4

মোট খরচ (বর্তমান মূল্য)

$0.212

মোট আউটপুট টোকেন

58,330

মোট ইনপুট টোকেন

ইনপুট মূল্য

$1.000 / 1M

আউটপুট মূল্য

$3.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 7

প্রতি চেষ্টায় পাস রেট: 77.2%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

16.18s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 82.71s

প্রতিক্রিয়া সময় (মোট): 307.48s

ভুল উত্তর: 4 অতিরিক্ত ফরম্যাটিং: 1 নির্দেশনা অনুসরণ করা হয়নি: 1 টাইমআউট: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#37 MiMo-V2-Pro

medium

This model has been deprecated. It is recommended to migrate to xiaomi/mimo-v2.5-pro

খরচ: $0.000
সময়: 0.1s
টোকেন: 0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে	6.3	9.6	$0.333 ↑	তুলনা করুন
2026-05-22 00:25 স্যুইট পরিবর্তিত হয়েছে	7.6	9.5	$0.295	তুলনা করুন
2026-05-08 15:32 স্যুইট পরিবর্তিত হয়েছে	7.7	9.4	$0.212	বর্তমান রান
2026-04-11 01:44 প্রথম নথিভুক্ত রান	8.1	প্রযোজ্য নয়	$0.159	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	বেঞ্চমার্ক কভারেজ	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-08 15:32 · স্যুইট পরিবর্তিত হয়েছে	19/19 টেস্ট · 57/57 প্রচেষ্টা	7.7	8.2	9.4	12/19	4	58,330	$0.212	16.18s
2026-05-22 00:25 · স্যুইট পরিবর্তিত হয়েছে	20/20 টেস্ট · 60/60 প্রচেষ্টা	7.6	7.9	9.5	12/20	5	84,435	$0.295	22.19s
পার্থক্য	—	+0.1	+0.3	-0.1	0	-1	-26105	-$0.083	-6005ms

বেঞ্চমার্ক কভারেজ আলাদা: 19/19 টেস্ট · 57/57 প্রচেষ্টা (লক্ষ্য: প্রতি টেস্টে 3টি পুনরাবৃত্তি) বনাম 20/20 টেস্ট · 60/60 প্রচেষ্টা (লক্ষ্য: প্রতি টেস্টে 3টি পুনরাবৃত্তি)। মোট মান ও পুনরাবৃত্তি-সংবেদনশীল মেট্রিক সরাসরি তুলনাযোগ্য নয়।

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	10.0	10.0
সমন্বিত	4.7	1.6
ডেটা পার্সিং ও নিষ্কাশন	7.3	5.8
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	9.9	10.0
ধাঁধা সমাধান	6.4	4.4
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Mimo V2 PRO

Hamster playing table tennis

#37 MiMo-V2-Pro

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল