AI BENCHY
Advertise here
#82

Grok Build 0.1

X AI প্রকাশ: 2026-05-21 পরীক্ষিত হয়েছে: 2026-05-21 12:40 x-ai/grok-build-0.1::none
(medium) (none)

সারাংশ

Grok Build 0.1 AI BENCHY-তে 6.6 স্কোর করে এবং #82 স্থানে আছে। এর reliability 10.0, pass rate 60.4%, মোট খরচ $0.547, এবং গড় response time 28.69s.

Grok Build 0.1 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর সমন্বিত এর দুর্বলতম ক্ষেত্র, rank #13.

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

ধারাবাহিকতা

8.0

মোট আউটপুট টোকেন

267,275

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$1.000 / 1M

আউটপুট মূল্য

$2.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 9

প্রতি চেষ্টায় পাস রেট: 60.4%

অস্থির টেস্ট

4

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

28.69s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 138.35s

প্রতিক্রিয়া সময় (মোট): 459.00s

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-21 12:40 পুনরায় পরীক্ষা 6.0 10.0 $0.547 তুলনা করুন
2026-05-21 12:40 পুনরায় পরীক্ষা 6.6 10.0 $0.547 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-05-21 12:40 · পুনরায় পরীক্ষা6.68.010.07/164267,2750$0.54728.69s
2026-05-21 12:40 · পুনরায় পরীক্ষা6.08.310.07/194267,27511,793$0.54728.69s
পার্থক্য+0.6-0.30.0+300-11793$0.0000ms

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 8.7 7.9
কোডিং 10.0 10.0
সমন্বিত 0.0 0.0
ডেটা পার্সিং ও নিষ্কাশন 4.7 1.6
ডোমেইন-নির্দিষ্ট 3.6 7.2
Sadharon Buddhimotta 4.3 10.0
নির্দেশনা অনুসরণ 9.8 10.0
ধাঁধা সমাধান 6.4 7.7
টুল কলিং 0.0 0.0
সাধারণ জ্ঞান 3.0 10.0

তুলনা করা মডেল