#111

Kimi K2.6

Moonshot AI रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-05-22 00:18 moonshotai/kimi-k2.6::none

(medium) (none)

सारांश

Kimi K2.6 AI BENCHY पर 5.6 स्कोर करता है और #111 पर है। इसकी reliability 8.3, pass rate 38.3%, कुल लागत $0.088, और औसत response time 13.86s है।

Kimi K2.6 को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि पहेली समाधान इसकी सबसे कमजोर जगह है, जहाँ यह #16 पर है।

स्कोर

5.6

संगति

9.2

विश्वसनीयता

8.3

कुल लागत (वर्तमान कीमत)

$0.088

कुल आउटपुट टोकन

16,563

कुल इनपुट टोकन

इनपुट कीमत

$0.730 / 1M

आउटपुट कीमत

$3.490 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 38.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

13.86s

प्रतिक्रिया समय (अधिकतम): 238.89s

प्रतिक्रिया समय (कुल): 277.18s

गलत उत्तर: 10 निर्देशों का पालन नहीं किया: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#111 MoonshotAI: Kimi K2.6

none

लागत: $0.020
समय: 127.4s
टोकन: 4,429 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:20 नया टेस्ट जोड़ा गया	5.8	10.0	$0.233 ↑	तुलना करें
2026-06-04 13:36 नया टेस्ट जोड़ा गया	5.5	10.0	$0.079 ↓	तुलना करें
2026-05-22 00:18 सूट बदला गया	5.6	8.3	$0.088	वर्तमान रन
2026-04-23 10:54 पहला दर्ज रन	5.8	लागू नहीं	$0.038	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-22 00:18 · सूट बदला गया	5.6	9.2	8.3	7/20	2	16,563	$0.088	13.86s
2026-04-23 10:54 · पहला दर्ज रन	5.8	9.1	लागू नहीं	7/18	2	2,973	$0.038	2.05s
अंतर	-0.2	+0.1		0	0	+13590	+$0.050	+11807ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Kimi K2.6nonevsQwen3.5-35B-A3Bnone Kimi K2.6nonevsNemotron 3 Ultranoneनिःशुल्क उपलब्ध Kimi K2.6nonevsQwen3.5 Plus 2026-04-20none Kimi K2.6nonevsStep 3.5 Flashmedium Kimi K2.6nonevsQwen3.5-Flashnone Kimi K2.6nonevsGemini 3 Flash Previewmedium Kimi K2.6nonevsGemini 3.5 Flashhigh Kimi K2.6nonevsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Kimi K2.6nonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	4.6	10.0
कोडिंग	6.8	9.8
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.4	3.5
निर्देश पालन	6.5	10.0
पहेली समाधान	3.2	9.8
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Kimi K2.6

Hamster playing table tennis

#111 MoonshotAI: Kimi K2.6

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल