#25

MiMo-V2.5-Pro

Xiaomi প্রকাশ: 2026-04-22 পরীক্ষিত হয়েছে: 2026-04-22 22:54 xiaomi/mimo-v2.5-pro::medium

(medium) (none)

সারাংশ

MiMo-V2.5-Pro AI BENCHY-তে 8.1 স্কোর করে এবং #25 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 75.9%, মোট খরচ $0.201, এবং গড় response time 16.17s.

MiMo-V2.5-Pro কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

8.1

ধারাবাহিকতা

8.8

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.201

মোট আউটপুট টোকেন

55,306

মোট ইনপুট টোকেন

ইনপুট মূল্য

$1.000 / 1M

আউটপুট মূল্য

$3.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 6

প্রতি চেষ্টায় পাস রেট: 75.9%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

16.17s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 84.22s

প্রতিক্রিয়া সময় (মোট): 291.09s

অতিরিক্ত ফরম্যাটিং: 2 নির্দেশনা অনুসরণ করা হয়নি: 2 ভুল উত্তর: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#25 MiMo-V2.5-Pro

medium

অবৈধ SVG

খরচ: $0.000
সময়: 300.0s
টোকেন: 0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:50 নতুন টেস্ট যোগ হয়েছে	6.9	10.0	$0.187 ↓	তুলনা করুন
2026-06-04 13:52 নতুন টেস্ট যোগ হয়েছে	7.5	10.0	$0.106 ↓	তুলনা করুন
2026-05-08 15:28 স্যুইট পরিবর্তিত হয়েছে	8.1	10.0	$0.200	তুলনা করুন
2026-04-22 22:54 প্রথম নথিভুক্ত রান	8.1	প্রযোজ্য নয়	$0.201	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-22 22:54 · প্রথম নথিভুক্ত রান	8.1	8.8	প্রযোজ্য নয়	12/18	3	55,306	$0.201	16.17s
2026-05-08 15:28 · স্যুইট পরিবর্তিত হয়েছে	8.1	9.2	10.0	12/18	2	54,791	$0.200	16.23s
পার্থক্য	0.0	-0.4		0	+1	+515	+$0.002	-56ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

MiMo-V2.5-PromediumvsDeepSeek V4 Pronone MiMo-V2.5-PromediumvsKAT-Coder-Pro V2.5medium MiMo-V2.5-PromediumvsQwen3.6 Flashmedium MiMo-V2.5-PromediumvsSeed-2.0-Minimedium MiMo-V2.5-PromediumvsStep 3.7 Flashhigh MiMo-V2.5-PromediumvsGemini 3.6 Flashmedium MiMo-V2.5-PromediumvsGemini 3.6 Flashhigh MiMo-V2.5-PromediumvsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য MiMo-V2.5-PromediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	7.3	5.8
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	5.1	3.3
নির্দেশনা অনুসরণ	9.9	10.0
ধাঁধা সমাধান	6.7	7.9
টুল কলিং	10.0	10.0

MiMo-V2.5-Pro

Hamster playing table tennis

#25 MiMo-V2.5-Pro

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল