#74

Kimi K2.6

Moonshot AI रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-04-23 10:54 moonshotai/kimi-k2.6::none

(medium) (none)

सारांश

Kimi K2.6 AI BENCHY पर 5.8 स्कोर करता है और #74 पर है। इसकी reliability लागू नहीं, pass rate 42.6%, कुल लागत $0.038, और औसत response time 2.05s है।

Kimi K2.6 को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि पहेली समाधान इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

स्कोर

5.8

संगति

9.1

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.038

कुल आउटपुट टोकन

2,973

कुल इनपुट टोकन

इनपुट कीमत

$0.750 / 1M

आउटपुट कीमत

$3.500 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 42.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

2.05s

प्रतिक्रिया समय (अधिकतम): 6.65s

प्रतिक्रिया समय (कुल): 36.93s

गलत उत्तर: 8 निर्देशों का पालन नहीं किया: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#74 MoonshotAI: Kimi K2.6

none

लागत: $0.020
समय: 127.4s
टोकन: 4,429 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:20 नया टेस्ट जोड़ा गया	5.8	10.0	$0.233 ↑	तुलना करें
2026-06-04 13:36 नया टेस्ट जोड़ा गया	5.5	10.0	$0.079 ↓	तुलना करें
2026-05-22 00:18 सूट बदला गया	5.6	8.3	$0.088	तुलना करें
2026-04-23 10:54 पहला दर्ज रन	5.8	लागू नहीं	$0.038	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-23 10:54 · पहला दर्ज रन	5.8	9.1	लागू नहीं	7/18	2	2,973	0	$0.038	2.05s
2026-06-04 13:36 · नया टेस्ट जोड़ा गया	5.5	9.2	10.0	7/21	2	16,410	32,916	$0.079	13.27s
अंतर	+0.4	-0.1		0	0	-13437	-32916	-$0.041	-11213ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Kimi K2.6nonevsQwen3.5-35B-A3Bnone Kimi K2.6nonevsNemotron 3 Ultranoneनिःशुल्क उपलब्ध Kimi K2.6nonevsQwen3.5 Plus 2026-04-20none Kimi K2.6nonevsStep 3.5 Flashmedium Kimi K2.6nonevsQwen3.5-Flashnone Kimi K2.6nonevsGemini 3 Flash Previewmedium Kimi K2.6nonevsGemini 3.5 Flashhigh Kimi K2.6nonevsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Kimi K2.6nonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	4.6	10.0
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.4	3.5
निर्देश पालन	6.5	10.0
पहेली समाधान	3.4	9.7
टूल कॉलिंग	10.0	10.0

Kimi K2.6

Hamster playing table tennis

#74 MoonshotAI: Kimi K2.6

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल