নেভিগেশন
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.4 Mini

সারাংশ

Mercury 2 vs GPT-5.4 Mini benchmark তুলনা: GPT-5.4 Mini average score-এ এগিয়ে: 5.3 vs 4.6. Mercury 2-এর benchmark খরচ কম: $0.011 vs $0.038. Mercury 2 দ্রুত: 653ms vs 1.13s, pass rates 23.8% vs 30.2%.

প্রস্তাবিত মডেল: Mercury 2 - Its score stays close to the best score here (4.6 vs 5.3), while costing about 3.6x less than GPT-5.4 Mini.

AI BENCHY টেস্ট স্যুট থেকে বেঞ্চমার্ক তৈরি হয়েছে: 2026-06-18

মেট্রিক Mercury 2 Mercury 2 none প্রকাশ: 2026-02-24 GPT-5.4 Mini GPT-5.4 Mini none প্রকাশ: 2026-03-17
স্কোর 4.6 5.3
র‍্যাঙ্ক #151 #124
নির্ভরযোগ্যতা 10.0 10.0
ধারাবাহিকতা 9.2 8.8
সঠিক টেস্ট
প্রতি চেষ্টায় পাস রেট 23.8% 30.2%
অস্থির টেস্ট 2 3
মোট রান 63 63
প্রতি ফলাফলে খরচ 0.259 0.743
মোট খরচ $0.011 $0.038
ইনপুট মূল্য $0.250 / 1M $0.750 / 1M
আউটপুট মূল্য $0.750 / 1M $4.500 / 1M
মোট ইনপুট টোকেন 28,113 34,244
আউটপুট টোকেন 4,439 2,541
রিজনিং টোকেন 0 0
প্রতিক্রিয়া সময় (গড়) 653ms 1.13s
প্রতিক্রিয়া সময় (সর্বোচ্চ) 1.43s 2.52s
প্রতিক্রিয়া সময় (মোট) 13.72s 23.82s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none
খরচ
$0.002
সময়
1.8s
টোকেন
1,514 tok

#124 GPT-5.4 Mini

none
খরচ
$0.010
সময়
11.7s
টোকেন
2,151 tok

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

অ্যান্টি-এআই কৌশল স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.0 10.0 0.0% 0 483ms 631 286 0
GPT-5.4 Mini 3.1 8.1 8.3% 1 929ms 606 654 0
কোডিং স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.4 9.6 0.0% 0 1.03s 7,229 3,088 0
GPT-5.4 Mini 5.5 10.0 33.3% 0 913ms 7,305 401 0
সমন্বিত স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.0 10.0 0.0% 0 606ms 4,821 131 0
GPT-5.4 Mini 3.0 10.0 0.0% 0 2.52s 11,019 298 0
ডেটা পার্সিং ও নিষ্কাশন স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 7.3 5.9 83.3% 1 667ms 6,362 180 0
GPT-5.4 Mini 10.0 10.0 100.0% 0 1.30s 7,140 222 0
ডোমেইন-নির্দিষ্ট স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 5.3 7.2 44.4% 1 534ms 784 46 0
GPT-5.4 Mini 3.5 4.4 33.3% 2 937ms 723 88 0
Sadharon Buddhimotta স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 4.8 10.0 0.0% 0 628ms 495 159 0
GPT-5.4 Mini 4.8 10.0 0.0% 0 1.82s 477 174 0
নির্দেশনা অনুসরণ স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 6.5 10.0 50.0% 0 551ms 691 82 0
GPT-5.4 Mini 6.3 10.0 50.0% 0 728ms 660 101 0
ধাঁধা সমাধান স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.1 10.0 0.0% 0 535ms 694 251 0
GPT-5.4 Mini 5.4 10.0 33.3% 0 836ms 642 305 0
টুল কলিং স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 10.0 10.0 100.0% 0 1.27s 6,193 197 0
GPT-5.4 Mini 3.0 10.0 0.0% 0 2.32s 5,477 255 0
সাধারণ জ্ঞান স্কোর ধারাবাহিকতা প্রতি চেষ্টায় পাস রেট অস্থির টেস্ট সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়) ইনপুট টোকেন আউটপুট টোকেন রিজনিং টোকেন
Mercury 2 3.0 10.0 0.0% 0 548ms 213 19 0
GPT-5.4 Mini 3.0 10.0 0.0% 0 1.33s 195 43 0

দ্রুত তুলনা

তুলনার জুটি বদলান