नेविगेशन
AI BENCHY
तुलना करें चार्ट
❤️ Made by XCS
Your ad here

AI BENCHY तुलना

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-05

मेट्रिक Anthropic: Claude Opus 4.6 medium रिलीज़: 2026-02-05 Inception: Mercury 2 none रिलीज़: 2026-02-24
रैंक #30 #50
औसत स्कोर 6.4 3.4
सही परीक्षण
संगति 8.9 8.9
प्रति परिणाम लागत 14.411 0.147
कुल लागत $1.297 $0.006
प्रति प्रयास पास दर 64.4% 33.3%
अस्थिर टेस्ट 2 2
common.totalAttempts 45 (15 x 3) 45 (15 x 3)
आउटपुट टोकन 26,066 1,144
रीजनिंग टोकन 17,071 0
प्रतिक्रिया समय (औसत) 25.08s 594ms
प्रतिक्रिया समय (अधिकतम) 83.40s 1.27s
प्रतिक्रिया समय (कुल) 200.67s 8.91s

स्कोर के अनुसार शीर्ष मॉडल

प्रतिक्रिया समय (औसत)

स्कोर बनाम कुल लागत

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
Inception: Mercury 2 10.0 10.0 0.0% 0 466ms 274 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Inception: Mercury 2 10.0 10.0 0.0% 0 606ms 131 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
Inception: Mercury 2 5.5 5.9 83.3% 1 667ms 180 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
Inception: Mercury 2 4.0 7.2 44.4% 1 534ms 46 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Inception: Mercury 2 5.5 10.0 50.0% 0 551ms 82 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
Inception: Mercury 2 10.0 10.0 0.0% 0 533ms 234 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Inception: Mercury 2 10.0 10.0 100.0% 0 1.27s 197 0

त्वरित तुलना

तुलना जोड़ी बदलें