#33

Grok 4.3

X AI প্রকাশ: 2026-05-01 পরীক্ষিত হয়েছে: 2026-05-22 00:32 x-ai/grok-4.3::medium

সারাংশ

Grok 4.3 AI BENCHY-তে 7.8 স্কোর করে এবং #33 স্থানে আছে। এর reliability 10.0, pass rate 75.0%, মোট খরচ $0.593, এবং গড় response time 49.23s.

Grok 4.3 কে আলাদা করে যা: এটি সমন্বিত-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর কোডিং এর দুর্বলতম ক্ষেত্র, rank #17.

স্কোর

7.8

ধারাবাহিকতা

8.4

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.593

মোট আউটপুট টোকেন

216,413

মোট ইনপুট টোকেন

ইনপুট মূল্য

$1.250 / 1M

আউটপুট মূল্য

$2.500 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 7

প্রতি চেষ্টায় পাস রেট: 75.0%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

49.23s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 216.69s

প্রতিক্রিয়া সময় (মোট): 984.54s

ভুল উত্তর: 4 নির্দেশনা অনুসরণ করা হয়নি: 2 অতিরিক্ত ফরম্যাটিং: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#33 xAI: Grok 4.3

medium

খরচ: $0.009
সময়: 19.0s
টোকেন: 3,661 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:07 নতুন টেস্ট যোগ হয়েছে	7.1	10.0	$0.779	তুলনা করুন
2026-06-04 14:11 নতুন টেস্ট যোগ হয়েছে	7.6	10.0	$0.614	তুলনা করুন
2026-05-22 00:32 পুনরায় পরীক্ষা	7.8	10.0	$0.593	বর্তমান রান
2026-05-01 00:40 প্রথম রান	8.2	10.0	$0.517	তুলনা করুন

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-22 00:32 · পুনরায় পরীক্ষা	7.8	8.4	10.0	13/20	4	216,413	$0.593	49.23s
2026-05-01 00:40 · প্রথম রান	8.2	8.6	10.0	13/18	3	188,270	$0.517	48.63s
পার্থক্য	-0.5	-0.2	0.0	0	+1	+28143	+$0.077	+601ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Grok 4.3mediumvsQwen3.5-122B-A10Bmedium Grok 4.3mediumvsGLM 5.1medium Grok 4.3mediumvsQwen3.7 Plusnone Grok 4.3mediumvsGrok 4.20medium Grok 4.3mediumvsQwen3.5 Plus 2026-04-20medium Grok 4.3mediumvsDeepSeek V3.2medium Grok 4.3mediumvsKAT-Coder-Pro V2.5high Grok 4.3mediumvsKimi K2.5medium Grok 4.3mediumvsKimi K2.6medium Grok 4.3mediumvsMercury 2medium

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	7.4	6.5
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	5.4	2.5
নির্দেশনা অনুসরণ	9.8	10.0
ধাঁধা সমাধান	5.9	7.2
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Grok 4.3

Hamster playing table tennis

#33 xAI: Grok 4.3

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল