#54

Kimi K2.6

Moonshot AI प्रकाशन: 2026-04-20 चाचणी तारीख: 2026-05-22 00:14 moonshotai/kimi-k2.6::medium

(medium) (none)

सारांश

Kimi K2.6 AI BENCHY वर 7.4 स्कोर करते आणि #54 वर आहे. याची reliability 8.3, pass rate 70.8%, एकूण खर्च $0.916, आणि सरासरी response time 54.11s आहे.

Kimi K2.6 खास का आहे: हे Samanya Buddhimatta मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर कोडी सोडवणे हा सर्वात कमकुवत भाग आहे, rank #13.

स्कोअर

7.4

सुसंगतता

8.3

विश्वसनीयता

8.3

एकूण खर्च (सध्याची किंमत)

$0.916

एकूण आउटपुट टोकन्स

331,877

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.730 / 1M

आउटपुट किंमत

$3.490 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 8

प्रति प्रयत्न पास दर: 70.8%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

54.11s

प्रतिसाद वेळ (कमाल): 215.85s

प्रतिसाद वेळ (एकूण): 1028.14s

चुकीचे उत्तर: 3 सूचनांचे पालन केले नाही: 2 वेळ संपला: 2 उत्तर नाही: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#54 MoonshotAI: Kimi K2.6

medium

खर्च: $0.013
वेळ: 103.4s
टोकन्स: 3,620 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:59 नवीन चाचणी जोडली	7.2	9.4	$1.222 ↑	तुलना करा
2026-06-04 13:59 नवीन चाचणी जोडली	7.2	7.8	$0.891 ↓	तुलना करा
2026-05-22 00:14 सूट बदलला	7.4	8.3	$0.916	सध्याची रन
2026-04-23 10:54 पहिली नोंदलेली रन	7.7	लागू नाही	$0.722	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-22 00:14 · सूट बदलला	7.4	8.3	8.3	12/20	4	331,877	$0.916	54.11s
2026-04-23 10:54 · पहिली नोंदलेली रन	7.7	8.3	लागू नाही	11/18	4	260,573	$0.722	45.20s
फरक	-0.3	0.0		+1	0	+71304	+$0.194	+8914ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Kimi K2.6mediumvsClaude Opus 4.8none Kimi K2.6mediumvsGemini 3.1 Flash Litemedium Kimi K2.6mediumvsKAT-Coder-Pro V2.5high Kimi K2.6mediumvsGemini 3.1 Flash Lite Previewmedium Kimi K2.6mediumvsQwen3.5 Plus 2026-04-20medium Kimi K2.6mediumvsGemini 3 Flash Previewmedium Kimi K2.6mediumvsGemini 3.5 Flashhigh Kimi K2.6mediumvsNemotron 3 Ultramediumमोफत उपलब्ध Kimi K2.6mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	7.0	8.0
कोडिंग	6.5	5.3
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	6.0	7.4
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Kimi K2.6

Hamster playing table tennis

#54 MoonshotAI: Kimi K2.6

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स