নেভিগেশন
AI BENCHY
Advertise here

AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.20

সারাংশ

Mercury 2 vs Grok 4.20 benchmark তুলনা: Mercury 2 average score-এ এগিয়ে: 4.6 vs 4.4. Mercury 2-এর benchmark খরচ কম: $0.011 vs $0.057. Mercury 2 দ্রুত: 653ms vs 1.11s, pass rates 23.8% vs 28.6%.

প্রস্তাবিত মডেল: Mercury 2 - It has the best score here (4.6), while costing about 5.5x less than Grok 4.20.

AI BENCHY টেস্ট স্যুট থেকে বেঞ্চমার্ক তৈরি হয়েছে: 2026-06-18

মেট্রিক Mercury 2 Mercury 2 none প্রকাশ: 2026-02-24 Grok 4.20 Grok 4.20 none প্রকাশ: 2026-03-31
স্কোর 4.6 4.4
র‍্যাঙ্ক #151 #155
নির্ভরযোগ্যতা 10.0 প্রযোজ্য নয়
ধারাবাহিকতা 9.2 8.5
সঠিক টেস্ট
প্রতি চেষ্টায় পাস রেট 23.8% 28.6%
অস্থির টেস্ট 2 0
মোট রান 63 54
প্রতি ফলাফলে খরচ 0.259 1.570
মোট খরচ $0.011 $0.057
ইনপুট মূল্য $0.250 / 1M $1.250 / 1M
আউটপুট মূল্য $0.750 / 1M $2.500 / 1M
মোট ইনপুট টোকেন 28,113 41,313
আউটপুট টোকেন 4,439 1,923
রিজনিং টোকেন 0 0
প্রতিক্রিয়া সময় (গড়) 653ms 1.11s
প্রতিক্রিয়া সময় (সর্বোচ্চ) 1.43s 6.04s
প্রতিক্রিয়া সময় (মোট) 13.72s 19.96s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none
খরচ
$0.002
সময়
1.8s
টোকেন
1,514 tok

#155 xAI: Grok 4.20

none
খরচ
$0.004
সময়
6.5s
টোকেন
1,367 tok

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

অ্যান্টি-এআই কৌশল স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.0 10.0 0.0% 0 483ms 631 286 0
Grok 4.20 4.8 10.0 25.0% 0 501ms 1,986 267 0
কোডিং স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.4 9.6 0.0% 0 1.03s 7,229 3,088 0
Grok 4.20 1.1 3.1 0.0% 0 1.22s 1,074 312 0
সমন্বিত স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.0 10.0 0.0% 0 606ms 4,821 131 0
Grok 4.20 3.0 10.0 0.0% 0 6.04s 17,673 282 0
ডেটা পার্সিং ও নিষ্কাশন স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 7.3 5.9 83.3% 1 667ms 6,362 180 0
Grok 4.20 10.0 10.0 100.0% 0 522ms 7,749 207 0
ডোমেইন-নির্দিষ্ট স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 5.3 7.2 44.4% 1 534ms 784 46 0
Grok 4.20 3.0 10.0 0.0% 0 687ms 1,746 325 0
Sadharon Buddhimotta স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 4.8 10.0 0.0% 0 628ms 495 159 0
Grok 4.20 4.8 10.0 0.0% 0 659ms 819 83 0
নির্দেশনা অনুসরণ স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 6.5 10.0 50.0% 0 551ms 691 82 0
Grok 4.20 6.3 10.0 50.0% 0 445ms 1,350 60 0
ধাঁধা সমাধান স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.1 10.0 0.0% 0 535ms 694 251 0
Grok 4.20 5.3 10.0 33.3% 0 473ms 1,671 198 0
টুল কলিং স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 10.0 10.0 100.0% 0 1.27s 6,193 197 0
Grok 4.20 10.0 10.0 100.0% 0 4.63s 7,245 189 0
সাধারণ জ্ঞান স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.0 10.0 0.0% 0 548ms 213 19 0
Grok 4.20 0.0 0.0 0.0% 0 0ms 0 0 0

দ্রুত তুলনা

তুলনার জুটি বদলান