#185

Mercury 2

Inception रिलीज़: 2026-02-24 परीक्षण किया गया: 2026-07-16 23:13 inception/mercury-2::none

(medium) (none)

सारांश

Mercury 2 AI BENCHY पर 4.6 स्कोर करता है और #185 पर है। इसकी reliability 10.0, pass rate 22.7%, कुल लागत $0.030, और औसत response time 829ms है।

Mercury 2 को अलग क्या बनाता है: यह समान मॉडलों की तुलना में काफ़ी तेज है।

स्कोर

4.6

संगति

9.2

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.030

कुल आउटपुट टोकन

9,564

कुल इनपुट टोकन

88,704

इनपुट कीमत

$0.250 / 1M

आउटपुट कीमत

$0.750 / 1M

सही परीक्षण

गलत टेस्ट: 18

प्रति प्रयास पास दर: 22.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

829ms

प्रतिक्रिया समय (अधिकतम): 4.52s

प्रतिक्रिया समय (कुल): 18.24s

गलत उत्तर: 17 निर्देशों का पालन नहीं किया: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#185 Mercury 2

none

लागत: $0.002
समय: 1.8s
टोकन: 1,514 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:13 नया टेस्ट जोड़ा गया	4.6	10.0	$0.030	वर्तमान रन
2026-06-04 14:27 नया टेस्ट जोड़ा गया	4.5	10.0	$0.011	तुलना करें
2026-05-22 00:39 सूट बदला गया	4.6	10.0	$0.009	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	4.8	लागू नहीं	$0.007	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-07-16 23:13 · वर्तमान रन	4.6	9.2	10.0	4/22	2	9,564	88,704	$0.030	829ms
2026-04-11 01:44 · पहला दर्ज रन	4.8	9.0	लागू नहीं	4/18	2	1,625	0	$0.007	613ms
अंतर	-0.2	+0.2		0	0	+7939	+88704	+$0.023	+216ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$0.250 / 1M	$0.750 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Mercury 2nonevsInklingnone Mercury 2nonevsQwen3 Coder Nextnone Mercury 2nonevsMistral Small 4medium Mercury 2nonevsLing-2.6-1Tnone Mercury 2nonevsMiMo-V2.5none Mercury 2nonevsGemini 3 Flash Previewmedium Mercury 2nonevsGemini 3.5 Flashhigh Mercury 2nonevsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Mercury 2nonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.0	10.0
कोडिंग	3.4	9.6
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	7.3	5.9
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.8	10.0
निर्देश पालन	6.5	10.0
पहेली समाधान	3.1	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Mercury 2

Hamster playing table tennis

#185 Mercury 2

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल