#74

Kimi K2.6

Moonshot AI প্রকাশ: 2026-04-20 পরীক্ষিত হয়েছে: 2026-04-23 10:54 moonshotai/kimi-k2.6::none

(medium) (none)

সারাংশ

Kimi K2.6 AI BENCHY-তে 5.8 স্কোর করে এবং #74 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 42.6%, মোট খরচ $0.038, এবং গড় response time 2.05s.

Kimi K2.6 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর ধাঁধা সমাধান এর দুর্বলতম ক্ষেত্র, rank #18. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম। একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

স্কোর

5.8

ধারাবাহিকতা

9.1

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.038

মোট আউটপুট টোকেন

2,973

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.750 / 1M

আউটপুট মূল্য

$3.500 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 42.6%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

2.05s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 6.65s

প্রতিক্রিয়া সময় (মোট): 36.93s

ভুল উত্তর: 8 নির্দেশনা অনুসরণ করা হয়নি: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#74 MoonshotAI: Kimi K2.6

none

খরচ: $0.020
সময়: 127.4s
টোকেন: 4,429 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:20 নতুন টেস্ট যোগ হয়েছে	5.8	10.0	$0.233 ↑	তুলনা করুন
2026-06-04 13:36 নতুন টেস্ট যোগ হয়েছে	5.5	10.0	$0.079 ↓	তুলনা করুন
2026-05-22 00:18 স্যুইট পরিবর্তিত হয়েছে	5.6	8.3	$0.088	তুলনা করুন
2026-04-23 10:54 প্রথম নথিভুক্ত রান	5.8	প্রযোজ্য নয়	$0.038	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-23 10:54 · প্রথম নথিভুক্ত রান	5.8	9.1	প্রযোজ্য নয়	7/18	2	2,973	$0.038	2.05s
2026-05-22 00:18 · স্যুইট পরিবর্তিত হয়েছে	5.6	9.2	8.3	7/20	2	16,563	$0.088	13.86s
পার্থক্য	+0.2	-0.1		0	0	-13590	-$0.050	-11807ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Kimi K2.6nonevsQwen3.5-35B-A3Bnone Kimi K2.6nonevsNemotron 3 Ultranoneবিনামূল্যে উপলভ্য Kimi K2.6nonevsQwen3.5 Plus 2026-04-20none Kimi K2.6nonevsStep 3.5 Flashmedium Kimi K2.6nonevsQwen3.5-Flashnone Kimi K2.6nonevsGemini 3 Flash Previewmedium Kimi K2.6nonevsGemini 3.5 Flashhigh Kimi K2.6nonevsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য Kimi K2.6nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	4.6	10.0
কোডিং	10.0	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	5.4	3.5
নির্দেশনা অনুসরণ	6.5	10.0
ধাঁধা সমাধান	3.4	9.7
টুল কলিং	10.0	10.0

Kimi K2.6

Hamster playing table tennis

#74 MoonshotAI: Kimi K2.6

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল