#196

Grok 4.20 Multi Agent Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

সারাংশ

Grok 4.20 Multi Agent Beta AI BENCHY-তে 4.8 স্কোর করে এবং #196 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 48.5%, মোট খরচ $5.599, এবং গড় response time 9.69s.

Grok 4.20 Multi Agent Beta কে আলাদা করে যা: এটি ডেটা পার্সিং ও নিষ্কাশন-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর সাধারণ জ্ঞান এর দুর্বলতম ক্ষেত্র, rank #13. এটি অস্বাভাবিকভাবে বেশি reasoning tokens ব্যবহার করে, যা ধীর বা বেশি খরচের runs ব্যাখ্যা করতে পারে।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

স্কোর

4.8

ধারাবাহিকতা

6.4

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$5.599 ↑ +11.2%

পরীক্ষার সময়: $5.034

মোট আউটপুট টোকেন

600,042

মোট ইনপুট টোকেন

721,952

ইনপুট মূল্য

$4.235 / 1M

আউটপুট মূল্য

$4.235 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 10

প্রতি চেষ্টায় পাস রেট: 48.5%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.69s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 35.28s

প্রতিক্রিয়া সময় (মোট): 155.07s

ভুল উত্তর: 4 API ত্রুটি: 2 অতিরিক্ত ফরম্যাটিং: 2 নির্দেশনা অনুসরণ করা হয়নি: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#196 Grok 4.20 Multi Agent Beta

medium

খরচ: $0.261
সময়: 123.4s
টোকেন: 199,344 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	4.8	প্রযোজ্য নয়	$5.599 ↑	বর্তমান রান
2026-05-06 14:16 পুনরায় পরীক্ষা	6.6	প্রযোজ্য নয়	$5.599 ↑	তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা	6.6	প্রযোজ্য নয়	$5.074	তুলনা করুন
2026-05-06 14:16 স্যুইট পরিবর্তিত হয়েছে	6.6	প্রযোজ্য নয়	$5.074	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	6.4	প্রযোজ্য নয়	$5.074	তুলনা করুন

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-06 14:16 · বর্তমান রান	4.8	6.4	প্রযোজ্য নয়	8/18	5	600,042	721,952	$5.599	9.69s
2026-05-06 14:16 · পুনরায় পরীক্ষা	6.6	7.4	প্রযোজ্য নয়	8/18	6	608,704	0	$5.074	9.80s
পার্থক্য	-1.9	-1.0		0	-1	-8662	+721952	+$0.526	-105ms

মূল্যের ইতিহাস

OpenRouter থেকে এই মডেলের ঐতিহাসিক মূল্য তথ্য।

তারিখ	ইনপুট মূল্য	আউটপুট মূল্য
2026-06-04 15:40	$4.235 / 1M	$4.235 / 1M

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	6.9	5.8
কোডিং	3.3	3.3
সমন্বিত	1.5	5.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	2.9	7.2
Sadharon Buddhimotta	5.8	2.8
নির্দেশনা অনুসরণ	9.8	10.0
ধাঁধা সমাধান	6.7	7.9
টুল কলিং	3.0	10.0
সাধারণ জ্ঞান	0.0	0.0

Grok 4.20 Multi Agent Beta

Hamster playing table tennis

#196 Grok 4.20 Multi Agent Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল