नेविगेशन
AI BENCHY
तुलना करें चार्ट
❤️ Made by XCS
Your ad here

AI BENCHY तुलना

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-05

मेट्रिक Inception: Mercury 2 medium रिलीज़: 2026-02-24 MoonshotAI: Kimi K2.5 none रिलीज़: 2026-01-27
रैंक #35 #48
औसत स्कोर 5.4 3.7
सही परीक्षण
संगति 8.3 8.5
प्रति परिणाम लागत 0.622 0.359
कुल लागत $0.044 $0.015
प्रति प्रयास पास दर 57.8% 35.6%
अस्थिर टेस्ट 3 3
common.totalAttempts 45 (15 x 3) 45 (15 x 3)
आउटपुट टोकन 3,571 1,924
रीजनिंग टोकन 45,379 0
प्रतिक्रिया समय (औसत) 2.47s 12.90s
प्रतिक्रिया समय (अधिकतम) 14.63s 42.13s
प्रतिक्रिया समय (कुल) 34.56s 103.17s

स्कोर के अनुसार शीर्ष मॉडल

प्रतिक्रिया समय (औसत)

स्कोर बनाम कुल लागत

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 7.3 9.8 66.7% 0 1.30s 2,531 2,410
MoonshotAI: Kimi K2.5 2.7 7.9 11.1% 1 11.38s 363 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 100.0% 0 3.28s 268 4,887
MoonshotAI: Kimi K2.5 10.0 2.1 33.3% 1 19.16s 748 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 5.5 5.9 83.3% 1 1.11s 183 1,656
MoonshotAI: Kimi K2.5 5.4 5.8 83.3% 1 42.13s 187 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 7.2 11.1% 1 6.48s 41 30,754
MoonshotAI: Kimi K2.5 4.0 10.0 33.3% 0 4.38s 29 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 100.0% 0 1.07s 14 958
MoonshotAI: Kimi K2.5 5.5 10.0 50.0% 0 2.67s 60 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 1.7 7.5 22.2% 1 934ms 354 2,758
MoonshotAI: Kimi K2.5 10.0 10.0 0.0% 0 4.73s 317 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 100.0% 0 1.89s 180 1,956
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 13.99s 220 0

त्वरित तुलना

तुलना जोड़ी बदलें