AI BENCHY
Advertise here
#80

Grok 4.20 Multi Agent Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

সারাংশ

Grok 4.20 Multi Agent Beta AI BENCHY-তে 6.6 স্কোর করে এবং #80 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 63.0%, মোট খরচ $5.074, এবং গড় response time 9.80s.

Grok 4.20 Multi Agent Beta কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর টুল কলিং এর দুর্বলতম ক্ষেত্র, rank #11. এটি অস্বাভাবিকভাবে বেশি reasoning tokens ব্যবহার করে, যা ধীর বা বেশি খরচের runs ব্যাখ্যা করতে পারে।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

ধারাবাহিকতা

7.4

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

608,704

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 10

প্রতি চেষ্টায় পাস রেট: 63.0%

অস্থির টেস্ট

6

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.80s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 35.28s

প্রতিক্রিয়া সময় (মোট): 156.75s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Grok 4.20 Multi Agent Beta

medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 6.6 প্রযোজ্য নয় $5.599 তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 6.6 প্রযোজ্য নয় $5.074 তুলনা করুন
2026-05-06 14:16 স্যুইট পরিবর্তিত হয়েছে 6.6 প্রযোজ্য নয় $5.074 বর্তমান রান
2026-04-11 01:19 প্রথম নথিভুক্ত রান 6.4 প্রযোজ্য নয় $5.074 তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-05-06 14:16 · স্যুইট পরিবর্তিত হয়েছে6.67.4প্রযোজ্য নয়8/186608,7040$5.0749.80s
2026-05-06 14:16 · পুনরায় পরীক্ষা6.67.4প্রযোজ্য নয়8/186608,7040$5.0749.80s
পার্থক্য0.00.00000$0.0000ms

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 6.9 5.8
কোডিং 10.0 10.0
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 2.9 7.2
Sadharon Buddhimotta 5.8 2.8
নির্দেশনা অনুসরণ 9.8 10.0
ধাঁধা সমাধান 7.2 5.1
টুল কলিং 3.0 10.0

তুলনা করা মডেল