#18

Grok 4.20 Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-05-06 14:15 x-ai/grok-4.20-beta::medium

(medium) (none)

সারাংশ

Grok 4.20 Beta AI BENCHY-তে 8.2 স্কোর করে এবং #18 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 79.6%, মোট খরচ $0.633, এবং গড় response time 9.81s.

Grok 4.20 Beta কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Grok 4.20 Beta ছিল xAI: Grok 4.20-এর প্রিভিউ সংস্করণ।

স্কোর

8.2

ধারাবাহিকতা

9.1

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.633

মোট আউটপুট টোকেন

93,477

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 5

প্রতি চেষ্টায় পাস রেট: 79.6%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.81s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 31.36s

প্রতিক্রিয়া সময় (মোট): 176.62s

ভুল উত্তর: 4 নির্দেশনা অনুসরণ করা হয়নি: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#18 Grok 4.20 Beta

medium

খরচ: $0.034
সময়: 91.0s
টোকেন: 13,523 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	6.0	প্রযোজ্য নয়	$0.750 ↑	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	8.5	প্রযোজ্য নয়	$0.750 ↑	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	8.2	প্রযোজ্য নয়	$0.633	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	8.2	প্রযোজ্য নয়	$0.633	তুলনা করুন
2026-05-06 14:15 স্যুইট পরিবর্তিত হয়েছে	8.2	প্রযোজ্য নয়	$0.633	বর্তমান রান
2026-04-11 01:19 প্রথম নথিভুক্ত রান	8.0	প্রযোজ্য নয়	$0.633	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-06 14:15 · স্যুইট পরিবর্তিত হয়েছে	8.2	9.1	প্রযোজ্য নয়	13/18	2	93,477	$0.633	9.81s
2026-05-06 14:15 · পুনরায় পরীক্ষা	8.2	9.1	প্রযোজ্য নয়	13/18	2	93,477	$0.633	9.81s
পার্থক্য	0.0	0.0		0	0	0	$0.000	0ms

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.7	7.9
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	9.8	10.0
ধাঁধা সমাধান	8.2	7.2
টুল কলিং	3.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#18 Grok 4.20 Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল