AI BENCHY
Advertise here

#153

Mercury 2

Inception रिलीज़: 2026-02-24 परीक्षण किया गया: 2026-05-22 00:39 inception/mercury-2::none
(medium) (none)

संगति

9.1

कुल आउटपुट टोकन

3,001

कुल इनपुट टोकन

25,515

इनपुट कीमत

$0.250 / 1M

आउटपुट कीमत

$0.750 / 1M

सही परीक्षण

गलत टेस्ट: 16

प्रति प्रयास पास दर: 25.0%

अस्थिर टेस्ट

2

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

614ms

प्रतिक्रिया समय (अधिकतम): 1.27s

प्रतिक्रिया समय (कुल): 12.28s

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-22 00:39 सूट बदला गया 4.6 10.0 $0.009 वर्तमान रन
2026-04-11 01:44 पहला दर्ज रन 4.8 लागू नहीं $0.007 तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-22 00:39 · वर्तमान रन4.69.110.04/2023,00125,515$0.009614ms
2026-04-11 01:44 · पहला दर्ज रन4.89.0लागू नहीं4/1821,6250$0.007613ms
अंतर-0.2+0.100+1376+25515+$0.003+1ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख इनपुट कीमत आउटपुट कीमत
2026-06-03 21:35 $0.250 / 1M $0.750 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 3.0 10.0
कोडिंग 3.5 9.4
संयुक्त 3.0 10.0
डेटा पार्सिंग और निष्कर्षण 7.3 5.9
डोमेन-विशिष्ट 5.3 7.2
Samanya Buddhimatta 4.8 10.0
निर्देश पालन 6.5 10.0
पहेली समाधान 3.1 10.0
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना किए गए मॉडल