#47

Grok 4.20 Multi-Agent Beta

X AI · প্রকাশ: 2026-03-12 · x-ai/grok-4.20-multi-agent-beta::medium

গড় স্কোর

4.9

প্রতি ফলাফলে খরচ

97.178

ধারাবাহিকতা

7.1

মোট খরচ

$4.859

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 52.1%

অস্থির টেস্ট

6

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.08s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 35.28s

প্রতিক্রিয়া সময় (মোট): 127.09s

নির্দেশনা অনুসরণ করা হয়নি: 4 ভুল উত্তর: 3 API ত্রুটি: 2 অতিরিক্ত ফরম্যাটিং: 2

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

স্কোর অনুযায়ী শীর্ষ মডেল

গড় স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

গড় স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

গড় স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Grok 4.20 Multi-Agent BetamediumvsSeed-2.0-Litenone Grok 4.20 Multi-Agent BetamediumvsQwen3.5-122B-A10Bnone Grok 4.20 Multi-Agent BetamediumvsQwen3.5-35B-A3Bnone Grok 4.20 Multi-Agent Betamediumvsgpt-oss-120bmediumবিনামূল্যে উপলভ্য Grok 4.20 Multi-Agent BetamediumvsMiniMax M2.5medium Grok 4.20 Multi-Agent BetamediumvsGemini 3 Flash Previewmedium Grok 4.20 Multi-Agent BetamediumvsGemini 3.1 Pro Previewmedium Grok 4.20 Multi-Agent BetamediumvsStep 3.5 Flashmediumবিনামূল্যে উপলভ্য

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	গড় স্কোর	ধারাবাহিকতা	সঠিক টেস্ট
অ্যান্টি-এআই কৌশল	4.0	4.4
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	9.9	10.0
ডোমেইন-নির্দিষ্ট	10.0	7.2
Sadharon Buddhimotta	4.0	2.8
নির্দেশনা অনুসরণ	9.0	10.0
ধাঁধা সমাধান	6.3	5.1
টুল কলিং	10.0	10.0

তুলনা করা মডেল