#80

Grok 4.20 Multi Agent Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

সারাংশ

Grok 4.20 Multi Agent Beta AI BENCHY-তে 6.6 স্কোর করে এবং #80 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 63.0%, মোট খরচ $5.074, এবং গড় response time 9.80s.

Grok 4.20 Multi Agent Beta কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর সমন্বিত এর দুর্বলতম ক্ষেত্র, rank #17. এটি অস্বাভাবিকভাবে বেশি reasoning tokens ব্যবহার করে, যা ধীর বা বেশি খরচের runs ব্যাখ্যা করতে পারে।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

স্কোর

6.6

ধারাবাহিকতা

7.4

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$5.074

মোট আউটপুট টোকেন

608,704

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 10

প্রতি চেষ্টায় পাস রেট: 63.0%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.80s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 35.28s

প্রতিক্রিয়া সময় (মোট): 156.75s

ভুল উত্তর: 4 API ত্রুটি: 2 অতিরিক্ত ফরম্যাটিং: 2 নির্দেশনা অনুসরণ করা হয়নি: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Grok 4.20 Multi Agent Beta

medium

খরচ: $0.261
সময়: 123.4s
টোকেন: 199,344 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	4.8	প্রযোজ্য নয়	$5.599 ↑	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	6.6	প্রযোজ্য নয়	$5.599 ↑	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	6.6	প্রযোজ্য নয়	$5.074	তুলনা করুন
2026-05-06 14:16 স্যুইট পরিবর্তিত হয়েছে	6.6	প্রযোজ্য নয়	$5.074	বর্তমান রান
2026-04-11 01:19 প্রথম নথিভুক্ত রান	6.4	প্রযোজ্য নয়	$5.074	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-06 14:16 · স্যুইট পরিবর্তিত হয়েছে	6.6	7.4	প্রযোজ্য নয়	8/18	6	608,704	$5.074	9.80s
2026-05-06 14:16 · পুনরায় পরীক্ষা	6.6	7.4	প্রযোজ্য নয়	8/18	6	608,704	$5.074	9.80s
পার্থক্য	0.0	0.0		0	0	0	$0.000	0ms

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	6.9	5.8
কোডিং	10.0	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	2.9	7.2
Sadharon Buddhimotta	5.8	2.8
নির্দেশনা অনুসরণ	9.8	10.0
ধাঁধা সমাধান	7.2	5.1
টুল কলিং	3.0	10.0

Grok 4.20 Multi Agent Beta

Hamster playing table tennis

#80 Grok 4.20 Multi Agent Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল