#82
Moonshot AI
रिलीज़: 2026-01-27
परीक्षण किया गया: 2026-04-20 17:48
moonshotai/kimi-k2.5::none
(medium)
(none)
???? ???
$0.440 / 1M
????? ???
$2.000 / 1M
अस्थिर टेस्ट
3
अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।
रन इतिहास
| परीक्षण किया गया | स्कोर | विश्वसनीयता | सही परीक्षण | कुल लागत | तुलना करें |
|---|---|---|---|---|---|
| 2026-05-22 00:03 सूट बदला गया | 5.3 | 10.0 | $0.026 | तुलना करें | |
| 2026-04-20 17:48 पहला दर्ज रन | 5.5 | लागू नहीं | $0.017 | वर्तमान रन |
रन तुलना
| रन | स्कोर | संगति | विश्वसनीयता | सही परीक्षण | अस्थिर टेस्ट | कुल आउटपुट टोकन | कुल लागत | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-20 17:48 · पहला दर्ज रन | 5.5 | 8.7 | लागू नहीं | 6/18 | 3 | 2,659 | $0.017 | 13.37s |
| 2026-05-22 00:03 · सूट बदला गया | 5.3 | 8.9 | 10.0 | 6/20 | 3 | 6,734 | $0.026 | 14.16s |
| अंतर | +0.3 | -0.2 | 0 | 0 | -4075 | -$0.010 | -793ms |
इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।
चार्ट
पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।
स्कोर vs कुल लागत
प्रतिक्रिया समय (औसत)
स्कोर vs प्रतिक्रिया समय (औसत)
कुल आउटपुट टोकन
स्कोर vs कुल आउटपुट टोकन
त्वरित तुलना
Kimi K2.5nonevsDeepSeek V3.2noneKimi K2.5nonevsOwl AlphanoneKimi K2.5nonevsCobuddymediumनिःशुल्क उपलब्धKimi K2.5nonevsQwen3.6 27BnoneKimi K2.5nonevsGLM 4.7 FlashnoneKimi K2.5nonevsGemini 3 Flash PreviewmediumKimi K2.5nonevsGemini 3.5 FlashhighKimi K2.5nonevsRing-2.6-1TmediumKimi K2.5nonevsGemini 3.5 Flashlow
श्रेणी विवरण
| श्रेणी | स्कोर | संगति | सही परीक्षण |
|---|---|---|---|
| एंटी-एआई ट्रिक्स | 3.6 | 8.4 | |
| कोडिंग | 10.0 | 10.0 | |
| संयुक्त | 2.8 | 2.1 | |
| डेटा पार्सिंग और निष्कर्षण | 7.3 | 5.8 | |
| डोमेन-विशिष्ट | 5.3 | 10.0 | |
| Samanya Buddhimatta | 10.0 | 10.0 | |
| निर्देश पालन | 6.5 | 10.0 | |
| पहेली समाधान | 3.1 | 10.0 | |
| टूल कॉलिंग | 10.0 | 10.0 |