AI BENCHY
Advertise here

#89

Mercury 2

Inception रिलीज़: 2026-02-24 परीक्षण किया गया: 2026-05-22 00:40 inception/mercury-2::medium
(medium) (none)

संगति

8.8

कुल आउटपुट टोकन

62,427

कुल इनपुट टोकन

32,570

इनपुट कीमत

$0.250 / 1M

आउटपुट कीमत

$0.750 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 51.7%

अस्थिर टेस्ट

3

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

2.27s

प्रतिक्रिया समय (अधिकतम): 14.63s

प्रतिक्रिया समय (कुल): 43.20s

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-22 00:40 दोबारा परीक्षण 6.3 10.0 $0.055 वर्तमान रन
2026-04-11 01:44 पहला दर्ज रन 6.5 लागू नहीं $0.047 तुलना करें

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-22 00:40 · वर्तमान रन6.58.810.09/20362,42732,570$0.0552.27s
2026-04-11 01:44 · पहला दर्ज रन6.58.6लागू नहीं8/18352,3050$0.0472.21s
अंतर0.0+0.2+10+10122+32570+$0.009+67ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख इनपुट कीमत आउटपुट कीमत
2026-06-03 21:35 $0.250 / 1M $0.750 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 6.9 9.9
कोडिंग 7.2 6.5
संयुक्त 10.0 10.0
डेटा पार्सिंग और निष्कर्षण 7.3 5.9
डोमेन-विशिष्ट 2.9 7.2
Samanya Buddhimatta 4.8 10.0
निर्देश पालन 10.0 10.0
पहेली समाधान 5.4 10.0
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना किए गए मॉडल