नेविगेशन
AI BENCHY
तुलना करें चार्ट
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-05

मेट्रिक Inception: Mercury 2 none रिलीज़: 2026-02-24 OpenAI: gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध
रैंक #50 #36
औसत स्कोर 3.4 5.2
सही परीक्षण
संगति 8.9 7.2
प्रति परिणाम लागत 0.147 0.133
कुल लागत $0.006 $0.010
प्रति प्रयास पास दर 33.3% 57.8%
अस्थिर टेस्ट 2 5
common.totalAttempts 45 (15 x 3) 45 (15 x 3)
आउटपुट टोकन 1,144 13,103
रीजनिंग टोकन 0 33,843
प्रतिक्रिया समय (औसत) 594ms 17.75s
प्रतिक्रिया समय (अधिकतम) 1.27s 50.92s
प्रतिक्रिया समय (कुल) 8.91s 141.98s

स्कोर के अनुसार शीर्ष मॉडल

प्रतिक्रिया समय (औसत)

स्कोर बनाम कुल लागत

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 0.0% 0 466ms 274 0
OpenAI: gpt-oss-120b 7.0 9.8 66.7% 0 19.76s 3,463 2,077
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 0.0% 0 606ms 131 0
OpenAI: gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 5.5 5.9 83.3% 1 667ms 180 0
OpenAI: gpt-oss-120b 5.5 5.9 66.7% 1 1.98s 241 1,114
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 4.0 7.2 44.4% 1 534ms 46 0
OpenAI: gpt-oss-120b 10.0 4.4 22.2% 2 50.92s 6,784 20,606
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 5.5 10.0 50.0% 0 551ms 82 0
OpenAI: gpt-oss-120b 9.5 10.0 100.0% 0 7.63s 126 1,799
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 0.0% 0 533ms 234 0
OpenAI: gpt-oss-120b 1.7 4.7 22.2% 2 11.80s 1,508 2,092
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Inception: Mercury 2 10.0 10.0 100.0% 0 1.27s 197 0
OpenAI: gpt-oss-120b 9.0 10.0 100.0% 0 6.91s 287 1,083

त्वरित तुलना

तुलना जोड़ी बदलें