#39

Kimi K2.6

Moonshot AI प्रकाशन: 2026-04-20 चाचणी तारीख: 2026-04-23 10:54 moonshotai/kimi-k2.6::medium

(medium) (none)

सारांश

Kimi K2.6 AI BENCHY वर 7.7 स्कोर करते आणि #39 वर आहे. याची reliability लागू नाही, pass rate 74.1%, एकूण खर्च $0.722, आणि सरासरी response time 45.20s आहे.

Kimi K2.6 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर कोडी सोडवणे हा सर्वात कमकुवत भाग आहे, rank #18.

स्कोअर

7.7

सुसंगतता

8.3

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.722

एकूण आउटपुट टोकन्स

260,573

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.750 / 1M

आउटपुट किंमत

$3.500 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 7

प्रति प्रयत्न पास दर: 74.1%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

45.20s

प्रतिसाद वेळ (कमाल): 215.85s

प्रतिसाद वेळ (एकूण): 768.37s

सूचनांचे पालन केले नाही: 3 वेळ संपला: 2 चुकीचे उत्तर: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#39 MoonshotAI: Kimi K2.6

medium

खर्च: $0.013
वेळ: 103.4s
टोकन्स: 3,620 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:59 नवीन चाचणी जोडली	7.2	9.4	$1.222 ↑	तुलना करा
2026-06-04 13:59 नवीन चाचणी जोडली	7.2	7.8	$0.891 ↓	तुलना करा
2026-05-22 00:14 सूट बदलला	7.4	8.3	$0.916	तुलना करा
2026-04-23 10:54 पहिली नोंदलेली रन	7.7	लागू नाही	$0.722	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-23 10:54 · पहिली नोंदलेली रन	7.7	8.3	लागू नाही	11/18	4	260,573	$0.722	45.20s
2026-05-22 00:14 · सूट बदलला	7.4	8.3	8.3	12/20	4	331,877	$0.916	54.11s
फरक	+0.3	0.0		-1	0	-71304	-$0.194	-8914ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Kimi K2.6mediumvsClaude Opus 4.8none Kimi K2.6mediumvsGemini 3.1 Flash Litemedium Kimi K2.6mediumvsKAT-Coder-Pro V2.5high Kimi K2.6mediumvsGemini 3.1 Flash Lite Previewmedium Kimi K2.6mediumvsQwen3.5 Plus 2026-04-20medium Kimi K2.6mediumvsGemini 3 Flash Previewmedium Kimi K2.6mediumvsGemini 3.5 Flashhigh Kimi K2.6mediumvsNemotron 3 Ultramediumमोफत उपलब्ध Kimi K2.6mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	7.0	8.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	5.0	5.2
टूल कॉलिंग	10.0	10.0

Kimi K2.6

Hamster playing table tennis

#39 MoonshotAI: Kimi K2.6

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स