नेव्हिगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.5

सारांश

Mercury 2 vs GPT-5.5 benchmark तुलना: GPT-5.5 average score मध्ये पुढे आहे: 9.3 vs 4.6. Mercury 2 चा benchmark खर्च कमी आहे: $0.011 vs $0.907. Mercury 2 वेगवान आहे: 653ms vs 9.76s, pass rates 23.8% vs 85.7%.

शिफारस केलेले मॉडेल: Mercury 2 - It offers the best overall trade-off: a competitive score (4.6), lower cost than GPT-5.5, and balanced response time.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक Mercury 2 Mercury 2 none प्रकाशन: 2026-02-24 GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24
स्कोअर 4.6 9.3
क्रमांक #151 #4
विश्वसनीयता 10.0 10.0
सुसंगतता 9.2 10.0
बरोबर चाचण्या
प्रति प्रयत्न पास दर 23.8% 85.7%
अस्थिर चाचण्या 2 0
एकूण रन 63 63
प्रति निकाल खर्च 0.259 5.035
एकूण खर्च $0.011 $0.907
इनपुट किंमत $0.250 / 1M $5.000 / 1M
आउटपुट किंमत $0.750 / 1M $30.000 / 1M
एकूण इनपुट टोकन्स 28,113 34,209
आउटपुट टोकन्स 4,439 2,046
रिझनिंग टोकन्स 0 22,460
प्रतिसाद वेळ (सरासरी) 653ms 9.76s
प्रतिसाद वेळ (कमाल) 1.43s 56.19s
प्रतिसाद वेळ (एकूण) 13.72s 204.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none
खर्च
$0.002
वेळ
1.8s
टोकन्स
1,514 tok

#4 GPT-5.5

low
खर्च
$0.068
वेळ
37.0s
टोकन्स
2,339 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 3.0 10.0 0.0% 0 483ms 631 286 0
GPT-5.5 10.0 10.0 100.0% 0 4.41s 606 238 1,020
कोडिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 3.4 9.6 0.0% 0 1.03s 7,229 3,088 0
GPT-5.5 10.0 10.0 100.0% 0 15.04s 7,302 423 6,402
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 3.0 10.0 0.0% 0 606ms 4,821 131 0
GPT-5.5 10.0 10.0 100.0% 0 9.56s 11,019 303 717
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 7.3 5.9 83.3% 1 667ms 6,362 180 0
GPT-5.5 10.0 10.0 100.0% 0 3.28s 7,140 228 157
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 5.3 7.2 44.4% 1 534ms 784 46 0
GPT-5.5 5.3 10.0 33.3% 0 28.05s 723 69 11,609
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 4.8 10.0 0.0% 0 628ms 495 159 0
GPT-5.5 10.0 10.0 100.0% 0 5.17s 477 133 245
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 6.5 10.0 50.0% 0 551ms 691 82 0
GPT-5.5 9.9 10.0 100.0% 0 3.74s 660 93 415
कोडी सोडवणे स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 3.1 10.0 0.0% 0 535ms 694 251 0
GPT-5.5 10.0 10.0 100.0% 0 4.74s 642 279 954
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 100.0% 0 1.27s 6,193 197 0
GPT-5.5 10.0 10.0 100.0% 0 4.96s 5,445 250 101
सामान्य ज्ञान स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 3.0 10.0 0.0% 0 548ms 213 19 0
GPT-5.5 3.0 10.0 0.0% 0 10.06s 195 30 840

झटपट तुलना

तुलना जोडी बदला