AI BENCHY तुलना

Inception: Mercury 2 vs xAI: Grok 4.3

सारांश

Mercury 2 vs Grok 4.3 benchmark तुलना: Grok 4.3 average score में आगे है: 7.7 vs 7.5. Mercury 2 की benchmark लागत कम है: $0.058 vs $0.614. Mercury 2 तेज है: 2.24s vs 47.51s, pass rates 54.0% vs 71.4%.

अनुशंसित मॉडल: Mercury 2 - Its score stays close to the best score here (7.5 vs 7.7), while costing about 10.6x less than Grok 4.3.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24	Grok 4.3 Grok 4.3 medium रिलीज़: 2026-05-01

मेट्रिक	Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24	Grok 4.3 Grok 4.3 medium रिलीज़: 2026-05-01
स्कोर	7.5	7.7
रैंक	#44	#37
विश्वसनीयता	10.0	10.0
संगति	8.8	8.5
सही परीक्षण
प्रति प्रयास पास दर	54.0%	71.4%
अस्थिर टेस्ट	3	4
कुल रन	63	63
प्रति परिणाम लागत	0.578	4.724
कुल लागत	$0.058	$0.614
इनपुट कीमत	$0.250 / 1M	$1.250 / 1M
आउटपुट कीमत	$0.750 / 1M	$2.500 / 1M
कुल इनपुट टोकन	35,116	44,472
आउटपुट टोकन	4,048	1,981
रीजनिंग टोकन	61,219	221,382
प्रतिक्रिया समय (औसत)	2.24s	47.51s
प्रतिक्रिया समय (अधिकतम)	14.63s	216.69s
प्रतिक्रिया समय (कुल)	44.72s	997.68s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#44 Mercury 2

medium

लागत: $0.002
समय: 2.1s
टोकन: 1,702 tok

#37 xAI: Grok 4.3

medium

लागत: $0.009
समय: 19.0s
टोकन: 3,661 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Grok 4.3	10.0	10.0	100.0%	0		8.83s	2,010	88	8,207

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328
Grok 4.3	5.9	7.7	44.4%	1		41.23s	8,340	1,028	31,226

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
Grok 4.3	10.0	10.0	100.0%	0		63.99s	12,909	234	15,301

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Grok 4.3	10.0	10.0	100.0%	0		18.97s	7,761	180	9,546

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Grok 4.3	5.3	7.2	44.4%	1		181.74s	1,764	14	111,300

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Grok 4.3	5.4	2.5	66.7%	1		24.70s	825	70	5,020

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Grok 4.3	9.8	10.0	100.0%	0		18.58s	1,362	57	8,713

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Grok 4.3	5.9	7.2	55.6%	1		22.52s	1,689	128	14,468

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Grok 4.3	10.0	10.0	100.0%	0		17.66s	7,263	168	4,615

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Grok 4.3	3.0	10.0	0.0%	0		44.47s	549	14	12,986

त्वरित तुलना

तुलना जोड़ी बदलें

Step 3.7 FlashlowvsGrok 4.3medium Mercury 2mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsMercury 2medium DeepSeek V4 ProhighvsGrok 4.3medium Mercury 2mediumvsStep 3.7 Flashlow Gemini 3 Flash PreviewlowvsMercury 2medium GPT-5.3 ChatnonevsGrok 4.3medium Claude Sonnet 4.6nonevsMercury 2medium Claude Opus 4.8nonevsMercury 2medium Gemini 3 Flash PreviewlowvsGrok 4.3medium DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone