#54

Kimi K2.6

Moonshot AI প্রকাশ: 2026-04-20 পরীক্ষিত হয়েছে: 2026-05-22 00:14 moonshotai/kimi-k2.6::medium

(medium) (none)

সারাংশ

Kimi K2.6 AI BENCHY-তে 7.4 স্কোর করে এবং #54 স্থানে আছে। এর reliability 8.3, pass rate 70.8%, মোট খরচ $0.916, এবং গড় response time 54.11s.

Kimi K2.6 কে আলাদা করে যা: এটি Sadharon Buddhimotta-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর ধাঁধা সমাধান এর দুর্বলতম ক্ষেত্র, rank #13.

স্কোর

7.4

ধারাবাহিকতা

8.3

নির্ভরযোগ্যতা

8.3

মোট খরচ (বর্তমান মূল্য)

$0.916

মোট আউটপুট টোকেন

331,877

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.730 / 1M

আউটপুট মূল্য

$3.490 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 8

প্রতি চেষ্টায় পাস রেট: 70.8%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

54.11s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 215.85s

প্রতিক্রিয়া সময় (মোট): 1028.14s

ভুল উত্তর: 3 নির্দেশনা অনুসরণ করা হয়নি: 2 টাইমআউট: 2 কোন উত্তর নেই: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#54 MoonshotAI: Kimi K2.6

medium

খরচ: $0.013
সময়: 103.4s
টোকেন: 3,620 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:59 নতুন টেস্ট যোগ হয়েছে	7.2	9.4	$1.222 ↑	তুলনা করুন
2026-06-04 13:59 নতুন টেস্ট যোগ হয়েছে	7.2	7.8	$0.891 ↓	তুলনা করুন
2026-05-22 00:14 স্যুইট পরিবর্তিত হয়েছে	7.4	8.3	$0.916	বর্তমান রান
2026-04-23 10:54 প্রথম নথিভুক্ত রান	7.7	প্রযোজ্য নয়	$0.722	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-22 00:14 · স্যুইট পরিবর্তিত হয়েছে	7.4	8.3	8.3	12/20	4	331,877	0	$0.916	54.11s
2026-06-04 13:59 · নতুন টেস্ট যোগ হয়েছে	7.2	8.3	7.8	12/21	4	357,017	29,450	$0.891	71.67s
পার্থক্য	+0.2	0.0	+0.5	0	0	-25140	-29450	+$0.025	-17555ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Kimi K2.6mediumvsClaude Opus 4.8none Kimi K2.6mediumvsGemini 3.1 Flash Litemedium Kimi K2.6mediumvsKAT-Coder-Pro V2.5high Kimi K2.6mediumvsGemini 3.1 Flash Lite Previewmedium Kimi K2.6mediumvsQwen3.5 Plus 2026-04-20medium Kimi K2.6mediumvsGemini 3 Flash Previewmedium Kimi K2.6mediumvsGemini 3.5 Flashhigh Kimi K2.6mediumvsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য Kimi K2.6mediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	7.0	8.0
কোডিং	6.5	5.3
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	6.0	7.4
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Kimi K2.6

Hamster playing table tennis

#54 MoonshotAI: Kimi K2.6

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল