AI BENCHY
Advertise here
#79

Kimi K2.5

Moonshot AI প্রকাশ: 2026-01-27 পরীক্ষিত হয়েছে: 2026-05-22 00:12 moonshotai/kimi-k2.5::medium
(medium) (none)

সারাংশ

Kimi K2.5 AI BENCHY-তে 6.7 স্কোর করে এবং #79 স্থানে আছে। এর reliability 10.0, pass rate 66.7%, মোট খরচ $0.314, এবং গড় response time 89.36s.

Kimi K2.5 কে আলাদা করে যা: এটি Sadharon Buddhimotta-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #3; আর কোডিং এর দুর্বলতম ক্ষেত্র, rank #11.

ধারাবাহিকতা

6.8

মোট আউটপুট টোকেন

174,803

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.400 / 1M

আউটপুট মূল্য

$1.900 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 66.7%

অস্থির টেস্ট

8

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

89.36s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 281.00s

প্রতিক্রিয়া সময় (মোট): 1161.65s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#79 MoonshotAI: Kimi K2.5

medium
খরচ
$0.030
সময়
58.6s
টোকেন
8,683 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 13:43 নতুন টেস্ট যোগ হয়েছে 6.8 10.0 $0.328 তুলনা করুন
2026-05-22 00:12 স্যুইট পরিবর্তিত হয়েছে 6.7 10.0 $0.314 বর্তমান রান
2026-04-20 17:48 প্রথম নথিভুক্ত রান 7.0 প্রযোজ্য নয় $0.220 তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 7.3 5.8
কোডিং 4.1 1.9
সমন্বিত 10.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 3.5 4.4
Sadharon Buddhimotta 6.5 3.4
নির্দেশনা অনুসরণ 10.0 10.0
ধাঁধা সমাধান 5.3 7.3
টুল কলিং 10.0 10.0
সাধারণ জ্ঞান 3.0 10.0

তুলনা করা মডেল