#39

Kimi K2.6

Moonshot AI প্রকাশ: 2026-04-20 পরীক্ষিত হয়েছে: 2026-04-23 10:54 moonshotai/kimi-k2.6::medium

(medium) (none)

সারাংশ

Kimi K2.6 AI BENCHY-তে 7.7 স্কোর করে এবং #39 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 74.1%, মোট খরচ $0.722, এবং গড় response time 45.20s.

Kimi K2.6 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর ধাঁধা সমাধান এর দুর্বলতম ক্ষেত্র, rank #18.

স্কোর

7.7

ধারাবাহিকতা

8.3

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.722

মোট আউটপুট টোকেন

260,573

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.750 / 1M

আউটপুট মূল্য

$3.500 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 7

প্রতি চেষ্টায় পাস রেট: 74.1%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

45.20s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 215.85s

প্রতিক্রিয়া সময় (মোট): 768.37s

নির্দেশনা অনুসরণ করা হয়নি: 3 টাইমআউট: 2 ভুল উত্তর: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#39 MoonshotAI: Kimi K2.6

medium

খরচ: $0.013
সময়: 103.4s
টোকেন: 3,620 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:59 নতুন টেস্ট যোগ হয়েছে	7.2	9.4	$1.222 ↑	তুলনা করুন
2026-06-04 13:59 নতুন টেস্ট যোগ হয়েছে	7.2	7.8	$0.891 ↓	তুলনা করুন
2026-05-22 00:14 স্যুইট পরিবর্তিত হয়েছে	7.4	8.3	$0.916	তুলনা করুন
2026-04-23 10:54 প্রথম নথিভুক্ত রান	7.7	প্রযোজ্য নয়	$0.722	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-23 10:54 · প্রথম নথিভুক্ত রান	7.7	8.3	প্রযোজ্য নয়	11/18	4	260,573	$0.722	45.20s
2026-05-22 00:14 · স্যুইট পরিবর্তিত হয়েছে	7.4	8.3	8.3	12/20	4	331,877	$0.916	54.11s
পার্থক্য	+0.3	0.0		-1	0	-71304	-$0.194	-8914ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Kimi K2.6mediumvsClaude Opus 4.8none Kimi K2.6mediumvsGemini 3.1 Flash Litemedium Kimi K2.6mediumvsKAT-Coder-Pro V2.5high Kimi K2.6mediumvsGemini 3.1 Flash Lite Previewmedium Kimi K2.6mediumvsQwen3.5 Plus 2026-04-20medium Kimi K2.6mediumvsGemini 3 Flash Previewmedium Kimi K2.6mediumvsGemini 3.5 Flashhigh Kimi K2.6mediumvsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য Kimi K2.6mediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	7.0	8.0
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	5.0	5.2
টুল কলিং	10.0	10.0

Kimi K2.6

Hamster playing table tennis

#39 MoonshotAI: Kimi K2.6

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল