#111

Kimi K2.6

Moonshot AI প্রকাশ: 2026-04-20 পরীক্ষিত হয়েছে: 2026-05-22 00:18 moonshotai/kimi-k2.6::none

(medium) (none)

সারাংশ

Kimi K2.6 AI BENCHY-তে 5.6 স্কোর করে এবং #111 স্থানে আছে। এর reliability 8.3, pass rate 38.3%, মোট খরচ $0.088, এবং গড় response time 13.86s.

Kimi K2.6 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর ধাঁধা সমাধান এর দুর্বলতম ক্ষেত্র, rank #16.

স্কোর

5.6

ধারাবাহিকতা

9.2

নির্ভরযোগ্যতা

8.3

মোট খরচ (বর্তমান মূল্য)

$0.088

মোট আউটপুট টোকেন

16,563

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.730 / 1M

আউটপুট মূল্য

$3.490 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 13

প্রতি চেষ্টায় পাস রেট: 38.3%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

13.86s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 238.89s

প্রতিক্রিয়া সময় (মোট): 277.18s

ভুল উত্তর: 10 নির্দেশনা অনুসরণ করা হয়নি: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#111 MoonshotAI: Kimi K2.6

none

খরচ: $0.020
সময়: 127.4s
টোকেন: 4,429 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:20 নতুন টেস্ট যোগ হয়েছে	5.8	10.0	$0.233 ↑	তুলনা করুন
2026-06-04 13:36 নতুন টেস্ট যোগ হয়েছে	5.5	10.0	$0.079 ↓	তুলনা করুন
2026-05-22 00:18 স্যুইট পরিবর্তিত হয়েছে	5.6	8.3	$0.088	বর্তমান রান
2026-04-23 10:54 প্রথম নথিভুক্ত রান	5.8	প্রযোজ্য নয়	$0.038	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-22 00:18 · স্যুইট পরিবর্তিত হয়েছে	5.6	9.2	8.3	7/20	2	16,563	$0.088	13.86s
2026-04-23 10:54 · প্রথম নথিভুক্ত রান	5.8	9.1	প্রযোজ্য নয়	7/18	2	2,973	$0.038	2.05s
পার্থক্য	-0.2	+0.1		0	0	+13590	+$0.050	+11807ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Kimi K2.6nonevsQwen3.5-35B-A3Bnone Kimi K2.6nonevsNemotron 3 Ultranoneবিনামূল্যে উপলভ্য Kimi K2.6nonevsQwen3.5 Plus 2026-04-20none Kimi K2.6nonevsStep 3.5 Flashmedium Kimi K2.6nonevsQwen3.5-Flashnone Kimi K2.6nonevsGemini 3 Flash Previewmedium Kimi K2.6nonevsGemini 3.5 Flashhigh Kimi K2.6nonevsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য Kimi K2.6nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	4.6	10.0
কোডিং	6.8	9.8
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	5.4	3.5
নির্দেশনা অনুসরণ	6.5	10.0
ধাঁধা সমাধান	3.2	9.8
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Kimi K2.6

Hamster playing table tennis

#111 MoonshotAI: Kimi K2.6

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল