AI BENCHY तुलना

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

सारांश

Claude Opus 4.6 vs Mercury 2 benchmark तुलना: Claude Opus 4.6 average score में आगे है: 7.7 vs 7.5. Mercury 2 की benchmark लागत कम है: $0.058 vs $2.053. Mercury 2 तेज है: 2.24s vs 25.89s, pass rates 61.9% vs 54.0%.

अनुशंसित मॉडल: Mercury 2 - Its score stays close to the best score here (7.5 vs 7.7), while costing about 35.6x less than Claude Opus 4.6.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium रिलीज़: 2026-02-05	Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium रिलीज़: 2026-02-05	Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24
स्कोर	7.7	7.5
रैंक	#38	#44
विश्वसनीयता	10.0	10.0
संगति	8.8	8.8
सही परीक्षण
प्रति प्रयास पास दर	61.9%	54.0%
अस्थिर टेस्ट	3	3
कुल रन	63	63
प्रति परिणाम लागत	17.103	0.578
कुल लागत	$2.053	$0.058
इनपुट कीमत	$5.000 / 1M	$0.250 / 1M
आउटपुट कीमत	$25.000 / 1M	$0.750 / 1M
कुल इनपुट टोकन	53,227	35,116
आउटपुट टोकन	47,446	4,048
रीजनिंग टोकन	24,000	61,219
प्रतिक्रिया समय (औसत)	25.89s	2.24s
प्रतिक्रिया समय (अधिकतम)	83.40s	14.63s
प्रतिक्रिया समय (कुल)	362.49s	44.72s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.6

medium

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

#44 Mercury 2

medium

लागत: $0.002
समय: 2.1s
टोकन: 1,702 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.6mediumvsStep 3.7 Flashlow Mercury 2mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsMercury 2medium Claude Opus 4.6mediumvsDeepSeek V4 Prohigh Mercury 2mediumvsStep 3.7 Flashlow Gemini 3 Flash PreviewlowvsMercury 2medium Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsMercury 2medium Claude Opus 4.8nonevsMercury 2medium Claude Opus 4.6mediumvsGemini 3 Flash Previewlow DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone