#90

Mercury 2

Inception प्रकाशन: 2026-02-24 चाचणी तारीख: 2026-05-22 00:40 inception/mercury-2::medium

(medium) (none)

सारांश

Mercury 2 AI BENCHY वर 6.3 स्कोर करते आणि #90 वर आहे. याची reliability 10.0, pass rate 50.0%, एकूण खर्च $0.055, आणि सरासरी response time 2.27s आहे.

Mercury 2 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर डेटा पार्सिंग आणि निष्कर्षण हा सर्वात कमकुवत भाग आहे, rank #13.

स्कोअर

6.3

सुसंगतता

8.4

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.055

एकूण आउटपुट टोकन्स

62,397

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.250 / 1M

आउटपुट किंमत

$0.750 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 12

प्रति प्रयत्न पास दर: 50.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

2.27s

प्रतिसाद वेळ (कमाल): 14.63s

प्रतिसाद वेळ (एकूण): 43.15s

चुकीचे उत्तर: 9 सूचनांचे पालन केले नाही: 3

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#90 Mercury 2

medium

खर्च: $0.002
वेळ: 2.1s
टोकन्स: 1,702 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 14:27 नवीन चाचणी जोडली	6.6	10.0	$0.058	तुलना करा
2026-05-22 00:40 पुन्हा चाचणी	6.3	10.0	$0.055	सध्याची रन
2026-04-11 01:44 पहिली नोंदलेली रन	6.5	लागू नाही	$0.047	तुलना करा

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-22 00:40 · पुन्हा चाचणी	6.3	8.4	10.0	8/20	4	62,397	0	$0.055	2.27s
2026-06-04 14:27 · नवीन चाचणी जोडली	6.6	8.8	10.0	10/21	3	65,267	35,116	$0.058	2.24s
फरक	-0.4	-0.4	0.0	-2	+1	-2870	-35116	-$0.003	+35ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Mercury 2mediumvsGrok Build 0.1medium Mercury 2mediumvsDeepSeek V4 Prohigh Mercury 2mediumvsGPT-5.3 Chatnone Mercury 2mediumvsMiniMax M3medium Mercury 2mediumvsGPT-5.4 Nanomedium Mercury 2mediumvsGemini 3.5 Flashhigh Mercury 2mediumvsGemini 3 Flash Previewmedium Mercury 2mediumvsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Mercury 2mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.9	9.9
कोडिंग	7.2	6.5
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	7.3	5.9
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	4.8	10.0
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	3.8	7.3
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Mercury 2

Hamster playing table tennis

#90 Mercury 2

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स