#86

Grok 4.20 Beta

X AI প্রকাশ: 2026-03-12 পরীক্ষিত হয়েছে: 2026-04-11 01:19 x-ai/grok-4.20-beta::none

(medium) (none)

সারাংশ

Grok 4.20 Beta AI BENCHY-তে 5.3 স্কোর করে এবং #86 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 29.6%, মোট খরচ $0.091, এবং গড় response time 1.19s.

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

পরিচয় নোট

Grok 4.20 Beta ছিল xAI: Grok 4.20-এর প্রিভিউ সংস্করণ।

স্কোর

5.3

ধারাবাহিকতা

9.2

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.091

মোট আউটপুট টোকেন

1,591

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 14

প্রতি চেষ্টায় পাস রেট: 29.6%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

1.19s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 6.48s

প্রতিক্রিয়া সময় (মোট): 21.37s

ভুল উত্তর: 10 নির্দেশনা অনুসরণ করা হয়নি: 3 অবৈধ টুল কল: 1

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#86 Grok 4.20 Beta

none

Invalid SVG

Cost: $0.004
Time: 8.5s
Tokens: 1,672 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.8	প্রযোজ্য নয়	$0.087 ↓	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-05-06 14:15 পুনরায় পরীক্ষা	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-05-06 14:15 স্যুইট পরিবর্তিত হয়েছে	5.5	প্রযোজ্য নয়	$0.091	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	5.3	প্রযোজ্য নয়	$0.091	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:19 · প্রথম নথিভুক্ত রান	5.3	9.2	প্রযোজ্য নয়	4/18	2	1,591	0	$0.091	1.19s
2026-05-06 14:15 · পুনরায় পরীক্ষা	5.8	9.6	প্রযোজ্য নয়	6/18	1	1,657	40,597	$0.087	1.19s
পার্থক্য	-0.5	-0.4		-2	+1	-66	-40597	+$0.004	-3ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Grok 4.20 BetanonevsGemini 3 Flash Previewmedium Grok 4.20 BetanonevsGemini 3.5 Flashhigh Grok 4.20 BetanonevsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Grok 4.20 BetanonevsGemini 3.5 Flashlow

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	4.0	8.4
কোডিং	5.5	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	3.0	10.0
Sadharon Buddhimotta	5.0	10.0
নির্দেশনা অনুসরণ	4.8	10.0
ধাঁধা সমাধান	5.9	7.2
টুল কলিং	10.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#86 Grok 4.20 Beta

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল