#86

Grok 4.20 Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-04-11 01:19 x-ai/grok-4.20-beta::none

(medium) (none)

সারাংশ

Grok 4.20 Beta AI BENCHY-তে 5.3 স্কোর করে এবং #86 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 29.6%, মোট খরচ $0.091, এবং গড় response time 1.19s.

Grok 4.20 Beta কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম। একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Grok 4.20 Beta ছিল xAI: Grok 4.20-এর প্রিভিউ সংস্করণ।

স্কোর

5.3

ধারাবাহিকতা

9.2

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.091

মোট আউটপুট টোকেন

1,591

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 14

প্রতি চেষ্টায় পাস রেট: 29.6%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

1.19s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 6.48s

প্রতিক্রিয়া সময় (মোট): 21.37s

ভুল উত্তর: 10 নির্দেশনা অনুসরণ করা হয়নি: 3 অবৈধ টুল কল: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#86 Grok 4.20 Beta

none

অবৈধ SVG

খরচ: $0.004
সময়: 8.5s
টোকেন: 1,672 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	4.4	প্রযোজ্য নয়	$0.087 ↓	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.8	প্রযোজ্য নয়	$0.087 ↓	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-05-06 14:15 স্যুইট পরিবর্তিত হয়েছে	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	5.3	প্রযোজ্য নয়	$0.091	বর্তমান রান

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	4.0	8.4
কোডিং	5.5	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	3.0	10.0
Sadharon Buddhimotta	5.0	10.0
নির্দেশনা অনুসরণ	4.8	10.0
ধাঁধা সমাধান	5.9	7.2
টুল কলিং	10.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#86 Grok 4.20 Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল