नेविगेशन
AI BENCHY
Your ad here

AI BENCHY तुलना

MoonshotAI: Kimi K2.5 vs xAI: Grok 4.20 Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक Kimi K2.5 Kimi K2.5 medium रिलीज़: 2026-01-27 Grok 4.20 Beta Grok 4.20 Beta none रिलीज़: 2026-03-12
रैंक #30 #52
औसत स्कोर 6.4 4.4
संगति 7.5 9.1
प्रति परिणाम लागत 2.171 2.214
कुल लागत $0.196 $0.089
सही परीक्षण
प्रति प्रयास पास दर 72.9% 33.3%
अस्थिर टेस्ट 5 2
कुल रन 48 48
आउटपुट टोकन 38,453 1,511
रीजनिंग टोकन 72,496 0
प्रतिक्रिया समय (औसत) 69.83s 1.22s
प्रतिक्रिया समय (अधिकतम) 137.29s 6.48s
प्रतिक्रिया समय (कुल) 628.45s 19.53s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 7.0 7.2 88.9% 1 85.28s 335 6,255
Grok 4.20 Beta 3.3 7.9 22.2% 1 562ms 245 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
Grok 4.20 Beta 10.0 10.0 0.0% 0 6.48s 282 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 9.9 10.0 100.0% 0 49.78s 563 7,940
Grok 4.20 Beta 9.9 10.0 100.0% 0 601ms 197 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 10.0 4.4 33.3% 2 137.29s 20,753 30,564
Grok 4.20 Beta 10.0 10.0 0.0% 0 611ms 160 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 6.0 3.4 66.7% 1 69.73s 3,815 4,262
Grok 4.20 Beta 5.0 10.0 0.0% 0 541ms 87 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
Grok 4.20 Beta 4.5 10.0 0.0% 0 687ms 60 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 4.0 7.3 44.4% 1 45.40s 6,671 12,403
Grok 4.20 Beta 4.0 7.2 55.6% 1 541ms 291 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.79s 189 0

त्वरित तुलना

तुलना जोड़ी बदलें