#79

Kimi K2.5

Moonshot AI প্রকাশ: 2026-01-27 পরীক্ষিত হয়েছে: 2026-05-22 00:12 moonshotai/kimi-k2.5::medium

(medium) (none)

সারাংশ

Kimi K2.5 AI BENCHY-তে 6.7 স্কোর করে এবং #79 স্থানে আছে। এর reliability 10.0, pass rate 66.7%, মোট খরচ $0.314, এবং গড় response time 89.36s.

Kimi K2.5 কে আলাদা করে যা: এটি Sadharon Buddhimotta-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #3; আর কোডিং এর দুর্বলতম ক্ষেত্র, rank #11.

স্কোর

6.7

ধারাবাহিকতা

6.8

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.314

মোট আউটপুট টোকেন

174,803

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.400 / 1M

আউটপুট মূল্য

$1.900 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 66.7%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

89.36s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 281.00s

প্রতিক্রিয়া সময় (মোট): 1161.65s

ভুল উত্তর: 5 নির্দেশনা অনুসরণ করা হয়নি: 2 কোন উত্তর নেই: 2 টাইমআউট: 2

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#79 MoonshotAI: Kimi K2.5

medium

খরচ: $0.030
সময়: 58.6s
টোকেন: 8,683 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:43 নতুন টেস্ট যোগ হয়েছে	6.8	10.0	$0.328 ↓	তুলনা করুন
2026-05-22 00:12 স্যুইট পরিবর্তিত হয়েছে	6.7	10.0	$0.314	বর্তমান রান
2026-04-20 17:48 প্রথম নথিভুক্ত রান	7.0	প্রযোজ্য নয়	$0.220	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Kimi K2.5mediumvsDeepSeek V4 Prohigh Kimi K2.5mediumvsMiniMax M3medium Kimi K2.5mediumvsMercury 2medium Kimi K2.5mediumvsStep 3.7 Flashlow Kimi K2.5mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGemini 3.5 Flashhigh Kimi K2.5mediumvsGemini 3 Flash Previewmedium Kimi K2.5mediumvsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Kimi K2.5mediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	7.3	5.8
কোডিং	4.1	1.9
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	3.5	4.4
Sadharon Buddhimotta	6.5	3.4
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	5.3	7.3
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Kimi K2.5

Hamster playing table tennis

#79 MoonshotAI: Kimi K2.5

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল