नेविगेशन
AI BENCHY
तुलना करें चार्ट
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-05

मेट्रिक Inception: Mercury 2 none रिलीज़: 2026-02-24 MoonshotAI: Kimi K2.5 medium रिलीज़: 2026-01-27
रैंक #50 #29
औसत स्कोर 3.4 6.4
सही परीक्षण
संगति 8.9 7.8
प्रति परिणाम लागत 0.147 2.082
कुल लागत $0.006 $0.188
प्रति प्रयास पास दर 33.3% 73.3%
अस्थिर टेस्ट 2 4
common.totalAttempts 45 (15 x 3) 45 (15 x 3)
आउटपुट टोकन 1,144 34,638
रीजनिंग टोकन 0 68,234
प्रतिक्रिया समय (औसत) 594ms 69.84s
प्रतिक्रिया समय (अधिकतम) 1.27s 137.29s
प्रतिक्रिया समय (कुल) 8.91s 558.72s

स्कोर के अनुसार शीर्ष मॉडल

प्रतिक्रिया समय (औसत)

स्कोर बनाम कुल लागत

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 0.0% 0 466ms 274 0
MoonshotAI: Kimi K2.5 7.0 7.2 88.9% 1 85.28s 335 6,255
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 0.0% 0 606ms 131 0
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 5.5 5.9 83.3% 1 667ms 180 0
MoonshotAI: Kimi K2.5 9.9 10.0 100.0% 0 49.78s 563 7,940
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 4.0 7.2 44.4% 1 534ms 46 0
MoonshotAI: Kimi K2.5 10.0 4.4 33.3% 2 137.29s 20,753 30,564
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 5.5 10.0 50.0% 0 551ms 82 0
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 0.0% 0 533ms 234 0
MoonshotAI: Kimi K2.5 4.0 7.3 44.4% 1 45.40s 6,671 12,403
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 100.0% 0 1.27s 197 0
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812

त्वरित तुलना

तुलना जोड़ी बदलें