AI BENCHY
Advertise here
#85

Grok 4.20 Multi Agent Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

সারাংশ

Grok 4.20 Multi Agent Beta AI BENCHY-তে 6.6 স্কোর করে এবং #85 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 59.3%, মোট খরচ $5.599, এবং গড় response time 9.69s.

Grok 4.20 Multi Agent Beta কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর টুল কলিং এর দুর্বলতম ক্ষেত্র, rank #9. এটি অস্বাভাবিকভাবে বেশি reasoning tokens ব্যবহার করে, যা ধীর বা বেশি খরচের runs ব্যাখ্যা করতে পারে।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

ধারাবাহিকতা

7.9

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$5.599 ↑ +11.2%

পরীক্ষার সময়: $5.034

মোট আউটপুট টোকেন

600,042

মোট ইনপুট টোকেন

721,952

ইনপুট মূল্য

$4.235 / 1M

আউটপুট মূল্য

$4.235 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 10

প্রতি চেষ্টায় পাস রেট: 59.3%

অস্থির টেস্ট

5

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.69s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 35.28s

প্রতিক্রিয়া সময় (মোট): 155.07s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#85 Grok 4.20 Multi Agent Beta

medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 6.6 প্রযোজ্য নয় $5.599 বর্তমান রান
2026-05-06 14:16 পুনরায় পরীক্ষা 6.6 প্রযোজ্য নয় $5.074 তুলনা করুন
2026-05-06 14:16 স্যুইট পরিবর্তিত হয়েছে 6.6 প্রযোজ্য নয় $5.074 তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান 6.4 প্রযোজ্য নয় $5.074 তুলনা করুন

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-05-06 14:16 · বর্তমান রান6.67.9প্রযোজ্য নয়8/185600,042721,952$5.5999.69s
2026-05-06 14:16 · স্যুইট পরিবর্তিত হয়েছে6.67.4প্রযোজ্য নয়8/186608,7040$5.0749.80s
পার্থক্য-0.1+0.50-1-8662+721952+$0.526-105ms

মূল্যের ইতিহাস

OpenRouter থেকে এই মডেলের ঐতিহাসিক মূল্য তথ্য।

তারিখ ইনপুট মূল্য আউটপুট মূল্য
2026-06-04 15:40 $4.235 / 1M $4.235 / 1M

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 6.9 5.8
কোডিং 10.0 10.0
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 2.9 7.2
Sadharon Buddhimotta 5.8 2.8
নির্দেশনা অনুসরণ 9.8 10.0
ধাঁধা সমাধান 6.7 7.9
টুল কলিং 3.0 10.0

তুলনা করা মডেল