नेविगेशन
AI BENCHY
Your ad here

AI BENCHY तुलना

ByteDance Seed: Seed-2.0-Lite vs Inception: Mercury 2

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक Seed-2.0-Lite Seed-2.0-Lite none रिलीज़: 2026-02-14 Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24
रैंक #45 #40
औसत स्कोर 4.9 5.3
संगति 7.4 8.4
प्रति परिणाम लागत 0.214 0.631
कुल लागत $0.015 $0.045
सही परीक्षण
प्रति प्रयास पास दर 56.3% 54.2%
अस्थिर टेस्ट 5 3
कुल रन 48 48
आउटपुट टोकन 2,743 3,708
रीजनिंग टोकन 0 45,921
प्रतिक्रिया समय (औसत) 2.49s 2.36s
प्रतिक्रिया समय (अधिकतम) 6.70s 14.63s
प्रतिक्रिया समय (कुल) 39.91s 35.39s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 10.0 4.6 22.2% 2 2.93s 703 0
Mercury 2 7.3 9.8 66.7% 0 1.30s 2,531 2,410
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 10.0 10.0 0.0% 0 6.59s 498 0
Mercury 2 10.0 10.0 100.0% 0 3.28s 268 4,887
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 9.9 10.0 100.0% 0 1.82s 246 0
Mercury 2 5.5 5.9 83.3% 1 1.11s 183 1,656
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 10.0 7.2 22.2% 1 1.33s 17 0
Mercury 2 10.0 7.2 11.1% 1 6.48s 41 30,754
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 10.0 10.0 100.0% 0 3.45s 294 0
Mercury 2 4.0 10.0 0.0% 0 821ms 137 542
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 10.0 10.0 100.0% 0 1.06s 73 0
Mercury 2 10.0 10.0 100.0% 0 1.07s 14 958
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 4.0 4.4 55.6% 2 2.46s 620 0
Mercury 2 1.7 7.5 22.2% 1 934ms 354 2,758
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Seed-2.0-Lite 10.0 10.0 100.0% 0 3.94s 292 0
Mercury 2 10.0 10.0 100.0% 0 1.89s 180 1,956

त्वरित तुलना

तुलना जोड़ी बदलें