AI BENCHY
Advertise here

#82

Kimi K2.5

Moonshot AI প্রকাশ: 2026-01-27 পরীক্ষিত হয়েছে: 2026-04-20 17:48 moonshotai/kimi-k2.5::none
(medium) (none)

ধারাবাহিকতা

8.7

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

2,659

???? ???

$0.440 / 1M

????? ???

$2.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 12

প্রতি চেষ্টায় পাস রেট: 40.7%

অস্থির টেস্ট

3

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

13.37s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 42.13s

প্রতিক্রিয়া সময় (মোট): 147.05s

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-22 00:03 স্যুইট পরিবর্তিত হয়েছে 5.3 10.0 $0.026 তুলনা করুন
2026-04-20 17:48 প্রথম নথিভুক্ত রান 5.5 প্রযোজ্য নয় $0.017 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-20 17:48 · প্রথম নথিভুক্ত রান5.58.7প্রযোজ্য নয়6/1832,659$0.01713.37s
2026-05-22 00:03 · স্যুইট পরিবর্তিত হয়েছে5.38.910.06/2036,734$0.02614.16s
পার্থক্য+0.3-0.200-4075-$0.010-793ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 3.6 8.4
কোডিং 10.0 10.0
সমন্বিত 2.8 2.1
ডেটা পার্সিং ও নিষ্কাশন 7.3 5.8
ডোমেইন-নির্দিষ্ট 5.3 10.0
Sadharon Buddhimotta 10.0 10.0
নির্দেশনা অনুসরণ 6.5 10.0
ধাঁধা সমাধান 3.1 10.0
টুল কলিং 10.0 10.0

তুলনা করা মডেল