AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#61

Grok 4.20 Multi Agent Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-04-11 01:19 x-ai/grok-4.20-multi-agent-beta::medium

সারাংশ

Grok 4.20 Multi Agent Beta AI BENCHY-তে 6.4 স্কোর করে এবং #61 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 57.4%, মোট খরচ $5.074, এবং গড় response time 9.80s.

Grok 4.20 Multi Agent Beta কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর ডোমেইন-নির্দিষ্ট এর দুর্বলতম ক্ষেত্র, rank #16. এটি অস্বাভাবিকভাবে বেশি reasoning tokens ব্যবহার করে, যা ধীর বা বেশি খরচের runs ব্যাখ্যা করতে পারে।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

ধারাবাহিকতা

7.4

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

608,704

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 57.4%

অস্থির টেস্ট

6

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.80s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 35.28s

প্রতিক্রিয়া সময় (মোট): 156.75s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#61 Grok 4.20 Multi Agent Beta

medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 6.6 প্রযোজ্য নয় $5.599 তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 6.6 প্রযোজ্য নয় $5.074 তুলনা করুন
2026-05-06 14:16 স্যুইট পরিবর্তিত হয়েছে 6.6 প্রযোজ্য নয় $5.074 তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান 6.4 প্রযোজ্য নয় $5.074 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-11 01:19 · প্রথম নথিভুক্ত রান6.47.4প্রযোজ্য নয়7/186608,7040$5.0749.80s
2026-05-06 14:16 · স্যুইট পরিবর্তিত হয়েছে6.67.4প্রযোজ্য নয়8/186608,7040$5.0749.80s
পার্থক্য-0.20.0-1000$0.0000ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 6.9 5.8
কোডিং 10.0 10.0
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 2.9 7.2
Sadharon Buddhimotta 5.8 2.8
নির্দেশনা অনুসরণ 8.3 10.0
ধাঁধা সমাধান 7.2 5.1
টুল কলিং 3.0 10.0

তুলনা করা মডেল