AI BENCHY
Advertise here
#51

Kimi K2.5

Moonshot AI প্রকাশ: 2026-01-27 পরীক্ষিত হয়েছে: 2026-04-20 17:48 moonshotai/kimi-k2.5::medium
(medium) (none)

সারাংশ

Kimi K2.5 AI BENCHY-তে 7.0 স্কোর করে এবং #51 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 72.2%, মোট খরচ $0.220, এবং গড় response time 72.43s.

Kimi K2.5 কে আলাদা করে যা: এটি Sadharon Buddhimotta-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #4; আর কোডিং এর দুর্বলতম ক্ষেত্র, rank #15.

ধারাবাহিকতা

6.8

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

127,046

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.440 / 1M

আউটপুট মূল্য

$2.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 9

প্রতি চেষ্টায় পাস রেট: 72.2%

অস্থির টেস্ট

7

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

72.43s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 150.77s

প্রতিক্রিয়া সময় (মোট): 796.70s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#51 MoonshotAI: Kimi K2.5

medium
খরচ
$0.030
সময়
58.6s
টোকেন
8,683 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 13:43 নতুন টেস্ট যোগ হয়েছে 6.8 10.0 $0.328 তুলনা করুন
2026-05-22 00:12 স্যুইট পরিবর্তিত হয়েছে 6.7 10.0 $0.314 তুলনা করুন
2026-04-20 17:48 প্রথম নথিভুক্ত রান 7.0 প্রযোজ্য নয় $0.220 বর্তমান রান

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 7.3 5.8
কোডিং 4.7 1.6
সমন্বিত 10.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 3.5 4.4
Sadharon Buddhimotta 6.5 3.4
নির্দেশনা অনুসরণ 10.0 10.0
ধাঁধা সমাধান 5.3 7.3
টুল কলিং 10.0 10.0

তুলনা করা মডেল