नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

Inception: Mercury 2 vs xAI: Grok 4.3

सारांश

Mercury 2 vs Grok 4.3 benchmark तुलना: Grok 4.3 average score में आगे है: 7.7 vs 7.5. Mercury 2 की benchmark लागत कम है: $0.058 vs $0.614. Mercury 2 तेज है: 2.24s vs 47.51s, pass rates 54.0% vs 71.4%.

अनुशंसित मॉडल: Mercury 2 - Its score stays close to the best score here (7.5 vs 7.7), while costing about 10.6x less than Grok 4.3.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24 Grok 4.3 Grok 4.3 medium रिलीज़: 2026-05-01
स्कोर 7.5 7.7
रैंक #44 #37
विश्वसनीयता 10.0 10.0
संगति 8.8 8.5
सही परीक्षण
प्रति प्रयास पास दर 54.0% 71.4%
अस्थिर टेस्ट 3 4
कुल रन 63 63
प्रति परिणाम लागत 0.578 4.724
कुल लागत $0.058 $0.614
इनपुट कीमत $0.250 / 1M $1.250 / 1M
आउटपुट कीमत $0.750 / 1M $2.500 / 1M
कुल इनपुट टोकन 35,116 44,472
आउटपुट टोकन 4,048 1,981
रीजनिंग टोकन 61,219 221,382
प्रतिक्रिया समय (औसत) 2.24s 47.51s
प्रतिक्रिया समय (अधिकतम) 14.63s 216.69s
प्रतिक्रिया समय (कुल) 44.72s 997.68s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#44 Mercury 2

medium
लागत
$0.002
समय
2.1s
टोकन
1,702 tok

#37 xAI: Grok 4.3

medium
लागत
$0.009
समय
19.0s
टोकन
3,661 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 6.9 9.9 50.0% 0 1.12s 554 2,546 2,609
Grok 4.3 10.0 10.0 100.0% 0 8.83s 2,010 88 8,207
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 8.2 7.7 77.8% 1 2.04s 7,065 296 11,328
Grok 4.3 5.9 7.7 44.4% 1 41.23s 8,340 1,028 31,226
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 10.0 10.0 100.0% 0 3.28s 12,909 268 4,887
Grok 4.3 10.0 10.0 100.0% 0 63.99s 12,909 234 15,301
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 7.3 5.9 83.3% 1 1.11s 6,234 183 1,656
Grok 4.3 10.0 10.0 100.0% 0 18.97s 7,761 180 9,546
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 2.9 7.2 11.1% 1 6.48s 695 41 30,754
Grok 4.3 5.3 7.2 44.4% 1 181.74s 1,764 14 111,300
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 4.8 10.0 0.0% 0 821ms 456 137 542
Grok 4.3 5.4 2.5 66.7% 1 24.70s 825 70 5,020
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 10.0 10.0 100.0% 0 1.07s 340 14 958
Grok 4.3 9.8 10.0 100.0% 0 18.58s 1,362 57 8,713
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 5.4 10.0 33.3% 0 949ms 601 361 2,781
Grok 4.3 5.9 7.2 55.6% 1 22.52s 1,689 128 14,468
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 10.0 10.0 100.0% 0 1.89s 6,080 180 1,956
Grok 4.3 10.0 10.0 100.0% 0 17.66s 7,263 168 4,615
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Mercury 2 3.0 10.0 0.0% 0 2.58s 182 22 3,748
Grok 4.3 3.0 10.0 0.0% 0 44.47s 549 14 12,986

त्वरित तुलना

तुलना जोड़ी बदलें