AI BENCHY
Advertise here
#119

Grok 4.20

X AI প্রকাশ: 2026-03-31 পরীক্ষিত হয়েছে: 2026-05-06 14:16 x-ai/grok-4.20::none
(medium) (none)

সারাংশ

Grok 4.20 AI BENCHY-তে 5.4 স্কোর করে এবং #119 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 35.2%, মোট খরচ $0.095, এবং গড় response time 1.11s.

Grok 4.20 কে আলাদা করে যা: এটি অ্যান্টি-এআই কৌশল-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #3; আর কোডিং এর দুর্বলতম ক্ষেত্র, rank #11. একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

পরিচয় নোট

Grok 4.20 Beta ছিল Grok 4.20-এর প্রিভিউ সংস্করণ।

ধারাবাহিকতা

9.5

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

1,967

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$1.250 / 1M

আউটপুট মূল্য

$2.500 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 12

প্রতি চেষ্টায় পাস রেট: 35.2%

অস্থির টেস্ট

1

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

1.11s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 6.04s

প্রতিক্রিয়া সময় (মোট): 20.02s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#119 xAI: Grok 4.20

none
খরচ
$0.004
সময়
6.5s
টোকেন
1,367 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 5.4 প্রযোজ্য নয় $0.057 তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 5.4 প্রযোজ্য নয় $0.095 তুলনা করুন
2026-05-06 14:16 পুনরায় পরীক্ষা 5.4 প্রযোজ্য নয় $0.095 তুলনা করুন
2026-05-06 14:16 স্যুইট পরিবর্তিত হয়েছে 5.4 প্রযোজ্য নয় $0.095 বর্তমান রান
2026-04-11 01:44 প্রথম নথিভুক্ত রান 5.2 প্রযোজ্য নয় $0.095 তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 4.8 10.0
কোডিং 3.4 9.3
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 3.0 10.0
Sadharon Buddhimotta 4.8 10.0
নির্দেশনা অনুসরণ 6.3 10.0
ধাঁধা সমাধান 5.3 7.2
টুল কলিং 10.0 10.0

তুলনা করা মডেল