नेव्हिगेशन
AI BENCHY
Your ad here

AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.20

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-04-02

मेट्रिक Mercury 2 Mercury 2 medium प्रकाशन: 2026-02-24 Grok 4.20 Grok 4.20 none प्रकाशन: 2026-03-31
स्कोअर 6.3 5.4
क्रमांक #51 #69
सुसंगतता 8.5 9.5
बरोबर चाचण्या
प्रति प्रयत्न पास दर 51.0% 31.4%
अस्थिर चाचण्या 3 1
एकूण रन 51 51
प्रति निकाल खर्च 0.634 1.809
एकूण खर्च $0.045 $0.091
???? ??? $0.250 / 1M $2.000 / 1M
????? ??? $0.750 / 1M $6.000 / 1M
आउटपुट टोकन्स 3,723 1,655
रिझनिंग टोकन्स 46,120 0
प्रतिसाद वेळ (सरासरी) 2.25s 1.11s
प्रतिसाद वेळ (कमाल) 14.63s 6.04s
प्रतिसाद वेळ (एकूण) 35.99s 18.80s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 6.9 9.9 50.0% 0 1.12s 2,546 2,609
Grok 4.20 4.8 10.0 25.0% 0 501ms 267 0
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 100.0% 0 3.28s 268 4,887
Grok 4.20 3.0 10.0 0.0% 0 6.04s 282 0
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 7.3 5.9 83.3% 1 1.11s 183 1,656
Grok 4.20 10.0 10.0 100.0% 0 522ms 207 0
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 2.9 7.2 11.1% 1 6.48s 41 30,754
Grok 4.20 3.0 10.0 0.0% 0 687ms 325 0
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 4.8 10.0 0.0% 0 821ms 137 542
Grok 4.20 4.8 10.0 0.0% 0 659ms 83 0
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 100.0% 0 1.07s 14 958
Grok 4.20 4.8 10.0 0.0% 0 455ms 60 0
Puzzle Solving स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 3.9 7.5 22.2% 1 934ms 354 2,758
Grok 4.20 5.3 7.4 44.4% 1 487ms 242 0
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 100.0% 0 1.89s 180 1,956
Grok 4.20 10.0 10.0 100.0% 0 4.63s 189 0

झटपट तुलना

तुलना जोडी बदला