#61

Grok 4.20 Multi Agent Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-04-11 01:19 x-ai/grok-4.20-multi-agent-beta::medium

সারাংশ

Grok 4.20 Multi Agent Beta AI BENCHY-তে 6.4 স্কোর করে এবং #61 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 57.4%, মোট খরচ $5.074, এবং গড় response time 9.80s.

Grok 4.20 Multi Agent Beta কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর সমন্বিত এর দুর্বলতম ক্ষেত্র, rank #16.

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

স্কোর

6.4

ধারাবাহিকতা

7.4

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$5.074

মোট আউটপুট টোকেন

608,704

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 57.4%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.80s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 35.28s

প্রতিক্রিয়া সময় (মোট): 156.75s

নির্দেশনা অনুসরণ করা হয়নি: 4 ভুল উত্তর: 3 API ত্রুটি: 2 অতিরিক্ত ফরম্যাটিং: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#61 Grok 4.20 Multi Agent Beta

medium

খরচ: $0.261
সময়: 123.4s
টোকেন: 199,344 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	4.8	প্রযোজ্য নয়	$5.599 ↑	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	6.6	প্রযোজ্য নয়	$5.599 ↑	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	6.6	প্রযোজ্য নয়	$5.074	তুলনা করুন
2026-05-06 14:16 স্যুইট পরিবর্তিত হয়েছে	6.6	প্রযোজ্য নয়	$5.074	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	6.4	প্রযোজ্য নয়	$5.074	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:19 · প্রথম নথিভুক্ত রান	6.4	7.4	প্রযোজ্য নয়	7/18	6	608,704	$5.074	9.80s
2026-05-06 14:16 · স্যুইট পরিবর্তিত হয়েছে	6.6	7.4	প্রযোজ্য নয়	8/18	6	608,704	$5.074	9.80s
পার্থক্য	-0.2	0.0		-1	0	0	$0.000	0ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	6.9	5.8
কোডিং	10.0	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	2.9	7.2
Sadharon Buddhimotta	5.8	2.8
নির্দেশনা অনুসরণ	8.3	10.0
ধাঁধা সমাধান	7.2	5.1
টুল কলিং	3.0	10.0

Grok 4.20 Multi Agent Beta

Hamster playing table tennis

#61 Grok 4.20 Multi Agent Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল