तुलना करें चार्ट

भाषा:

❤️ Made by XCS

AI BENCHY तुलना

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-05

मेट्रिक	Anthropic: Claude Opus 4.6 medium रिलीज़: 2026-02-05	Inception: Mercury 2 none रिलीज़: 2026-02-24
रैंक	#30	#50
औसत स्कोर	6.4	3.4
सही परीक्षण
संगति	8.9	8.9
प्रति परिणाम लागत	14.411	0.147
कुल लागत	$1.297	$0.006
प्रति प्रयास पास दर	64.4%	33.3%
अस्थिर टेस्ट	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
आउटपुट टोकन	26,066	1,144
रीजनिंग टोकन	17,071	0
प्रतिक्रिया समय (औसत)	25.08s	594ms
प्रतिक्रिया समय (अधिकतम)	83.40s	1.27s
प्रतिक्रिया समय (कुल)	200.67s	8.91s

स्कोर के अनुसार शीर्ष मॉडल

प्रतिक्रिया समय (औसत)

स्कोर बनाम कुल लागत

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Inception: Mercury 2	10.0	10.0	0.0%	0		466ms	274	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Inception: Mercury 2	10.0	10.0	0.0%	0		606ms	131	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Inception: Mercury 2	5.5	5.9	83.3%	1		667ms	180	0

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Inception: Mercury 2	4.0	7.2	44.4%	1		534ms	46	0

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Inception: Mercury 2	5.5	10.0	50.0%	0		551ms	82	0

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Inception: Mercury 2	10.0	10.0	0.0%	0		533ms	234	0

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Inception: Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGemini 2.5 Flashnone Claude Opus 4.6mediumvsDeepSeek V3.2none Claude Opus 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.5-122B-A10Bnone