नेविगेशन
AI BENCHY
Your ad here

AI BENCHY तुलना

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-04-16

मेट्रिक Mercury 2 Mercury 2 none रिलीज़: 2026-02-24 gpt-oss-120b gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध
स्कोर 4.8 5.8
रैंक #89 #67
संगति 9.0 7.2
सही परीक्षण
प्रति प्रयास पास दर 27.8% 51.9%
अस्थिर टेस्ट 2 6
कुल रन 54 54
प्रति परिणाम लागत 0.165 0.144
कुल लागत $0.007 $0.011
???? ??? $0.250 / 1M $0.039 / 1M
????? ??? $0.750 / 1M $0.190 / 1M
आउटपुट टोकन 1,625 13,493
रीजनिंग टोकन 0 36,879
प्रतिक्रिया समय (औसत) 613ms 16.08s
प्रतिक्रिया समय (अधिकतम) 1.27s 50.92s
प्रतिक्रिया समय (कुल) 11.04s 176.88s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 3.0 10.0 0.0% 0 483ms 286 0
gpt-oss-120b 6.7 9.9 50.0% 0 10.21s 3,518 2,177
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 3.6 8.9 0.0% 0 969ms 310 0
gpt-oss-120b 4.3 1.1 66.7% 1 26.33s 228 2,549
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 3.0 10.0 0.0% 0 606ms 131 0
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 7.3 5.9 83.3% 1 667ms 180 0
gpt-oss-120b 6.4 5.9 66.7% 1 1.98s 241 1,114
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 5.3 7.2 44.4% 1 534ms 46 0
gpt-oss-120b 2.9 4.4 22.2% 2 50.92s 6,784 20,606
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 4.8 10.0 0.0% 0 628ms 159 0
gpt-oss-120b 4.3 10.0 0.0% 0 7.90s 107 387
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 6.5 10.0 50.0% 0 551ms 82 0
gpt-oss-120b 9.9 10.0 100.0% 0 7.63s 126 1,799
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 3.1 10.0 0.0% 0 533ms 234 0
gpt-oss-120b 3.2 4.7 22.2% 2 11.80s 1,508 2,092
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Mercury 2 10.0 10.0 100.0% 0 1.27s 197 0
gpt-oss-120b 9.8 10.0 100.0% 0 6.91s 287 1,083

त्वरित तुलना

तुलना जोड़ी बदलें