#82

Kimi K2.5

Moonshot AI প্রকাশ: 2026-01-27 পরীক্ষিত হয়েছে: 2026-04-20 17:48 moonshotai/kimi-k2.5::none

(medium) (none)

সারাংশ

Kimi K2.5 AI BENCHY-তে 5.5 স্কোর করে এবং #82 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 40.7%, মোট খরচ $0.017, এবং গড় response time 13.37s.

Kimi K2.5 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর অ্যান্টি-এআই কৌশল এর দুর্বলতম ক্ষেত্র, rank #14. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

5.5

ধারাবাহিকতা

8.7

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.017

মোট আউটপুট টোকেন

2,659

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.440 / 1M

আউটপুট মূল্য

$2.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 12

প্রতি চেষ্টায় পাস রেট: 40.7%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

13.37s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 42.13s

প্রতিক্রিয়া সময় (মোট): 147.05s

ভুল উত্তর: 12

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#82 MoonshotAI: Kimi K2.5

none

খরচ: $0.015
সময়: 89.1s
টোকেন: 5,421 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:32 নতুন টেস্ট যোগ হয়েছে	5.2	10.0	$0.028 ↑	তুলনা করুন
2026-05-22 00:03 স্যুইট পরিবর্তিত হয়েছে	5.3	10.0	$0.026	তুলনা করুন
2026-04-20 17:48 প্রথম নথিভুক্ত রান	5.5	প্রযোজ্য নয়	$0.017	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-20 17:48 · প্রথম নথিভুক্ত রান	5.5	8.7	প্রযোজ্য নয়	6/18	3	2,659	$0.017	13.37s
2026-05-22 00:03 · স্যুইট পরিবর্তিত হয়েছে	5.3	8.9	10.0	6/20	3	6,734	$0.026	14.16s
পার্থক্য	+0.3	-0.2		0	0	-4075	-$0.010	-793ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Kimi K2.5nonevsNemotron 3 Ultra 550b A55bnoneবিনামূল্যে উপলভ্য Kimi K2.5nonevsGPT-5.6 Terranone Kimi K2.5nonevsGemma 4 31Bnoneবিনামূল্যে উপলভ্য Kimi K2.5nonevsGLM 5none Kimi K2.5nonevsQwen3.5-Flashnone Kimi K2.5nonevsQwen3.6 Flashnone Kimi K2.5nonevsGemini 3.5 Flashhigh Kimi K2.5nonevsGemini 3 Flash Previewmedium Kimi K2.5nonevsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Kimi K2.5nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.6	8.4
কোডিং	10.0	10.0
সমন্বিত	2.8	2.1
ডেটা পার্সিং ও নিষ্কাশন	7.3	5.8
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	6.5	10.0
ধাঁধা সমাধান	3.1	10.0
টুল কলিং	10.0	10.0

Kimi K2.5

Hamster playing table tennis

#82 MoonshotAI: Kimi K2.5

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল