#29

Grok 4.20 Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-04-11 01:19 x-ai/grok-4.20-beta::medium

(medium) (none)

সারাংশ

Grok 4.20 Beta AI BENCHY-তে 8.0 স্কোর করে এবং #29 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 74.1%, মোট খরচ $0.633, এবং গড় response time 9.81s.

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Grok 4.20 Beta ছিল xAI: Grok 4.20-এর প্রিভিউ সংস্করণ।

স্কোর

8.0

ধারাবাহিকতা

9.1

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.633

মোট আউটপুট টোকেন

93,477

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 6

প্রতি চেষ্টায় পাস রেট: 74.1%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

9.81s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 31.36s

প্রতিক্রিয়া সময় (মোট): 176.62s

নির্দেশনা অনুসরণ করা হয়নি: 3 ভুল উত্তর: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#29 Grok 4.20 Beta

medium

খরচ: $0.034
সময়: 91.0s
টোকেন: 13,523 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	6.0	প্রযোজ্য নয়	$0.750 ↑	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	8.5	প্রযোজ্য নয়	$0.750 ↑	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	8.2	প্রযোজ্য নয়	$0.633	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	8.2	প্রযোজ্য নয়	$0.633	তুলনা করুন
2026-05-06 14:15 স্যুইট পরিবর্তিত হয়েছে	8.2	প্রযোজ্য নয়	$0.633	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	8.0	প্রযোজ্য নয়	$0.633	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:19 · প্রথম নথিভুক্ত রান	8.0	9.1	প্রযোজ্য নয়	12/18	2	93,477	0	$0.633	9.81s
2026-05-06 14:15 · পুনরায় পরীক্ষা	8.5	9.5	প্রযোজ্য নয়	14/18	1	93,212	35,955	$0.750	9.75s
পার্থক্য	-0.5	-0.4		-2	+1	+265	-35955	-$0.118	+63ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.7	7.9
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	8.3	10.0
ধাঁধা সমাধান	8.2	7.2
টুল কলিং	3.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#29 Grok 4.20 Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল