#117

Grok 4.20 Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-05-06 14:15 x-ai/grok-4.20-beta::none

(medium) (none)

সারাংশ

Grok 4.20 Beta AI BENCHY-তে 5.5 স্কোর করে এবং #117 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 35.2%, মোট খরচ $0.091, এবং গড় response time 1.19s.

Grok 4.20 Beta কে আলাদা করে যা: একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Grok 4.20 Beta ছিল xAI: Grok 4.20-এর প্রিভিউ সংস্করণ।

স্কোর

5.5

ধারাবাহিকতা

9.2

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.091

মোট আউটপুট টোকেন

1,591

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 13

প্রতি চেষ্টায় পাস রেট: 35.2%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

1.19s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 6.48s

প্রতিক্রিয়া সময় (মোট): 21.37s

ভুল উত্তর: 11 নির্দেশনা অনুসরণ করা হয়নি: 1 অবৈধ টুল কল: 1

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#117 Grok 4.20 Beta

none

Invalid SVG

Cost: $0.004
Time: 8.5s
Tokens: 1,672 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.8	প্রযোজ্য নয়	$0.087 ↓	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.5	প্রযোজ্য নয়	$0.091	বর্তমান রান
2026-05-06 14:15 পুনরায় পরীক্ষা	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-05-06 14:15 স্যুইট পরিবর্তিত হয়েছে	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	5.3	প্রযোজ্য নয়	$0.091	তুলনা করুন

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-06 14:15 · পুনরায় পরীক্ষা	5.5	9.2	প্রযোজ্য নয়	5/18	2	1,591	$0.091	1.19s
2026-04-11 01:19 · প্রথম নথিভুক্ত রান	5.3	9.2	প্রযোজ্য নয়	4/18	2	1,591	$0.091	1.19s
পার্থক্য	+0.2	0.0		+1	0	0	$0.000	0ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Grok 4.20 BetanonevsGemini 3 Flash Previewmedium Grok 4.20 BetanonevsGemini 3.5 Flashhigh Grok 4.20 BetanonevsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Grok 4.20 BetanonevsGemini 3.5 Flashlow

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	4.0	8.4
কোডিং	5.5	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	3.0	10.0
Sadharon Buddhimotta	5.0	10.0
নির্দেশনা অনুসরণ	6.3	10.0
ধাঁধা সমাধান	5.9	7.2
টুল কলিং	10.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#117 Grok 4.20 Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল