#41

GPT-5.3 Chat

OpenAI প্রকাশ: 2026-03-03 পরীক্ষিত হয়েছে: 2026-04-11 01:44 openai/gpt-5.3-chat::none

সারাংশ

GPT-5.3 Chat AI BENCHY-তে 7.7 স্কোর করে এবং #41 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 68.5%, মোট খরচ $0.340, এবং গড় response time 5.88s.

GPT-5.3 Chat কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর নির্দেশনা অনুসরণ এর দুর্বলতম ক্ষেত্র, rank #16. একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

স্কোর

7.7

ধারাবাহিকতা

8.6

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.340

মোট আউটপুট টোকেন

20,784

মোট ইনপুট টোকেন

ইনপুট মূল্য

$1.750 / 1M

আউটপুট মূল্য

$14.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 7

প্রতি চেষ্টায় পাস রেট: 68.5%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

5.88s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 18.33s

প্রতিক্রিয়া সময় (মোট): 105.90s

ভুল উত্তর: 5 নির্দেশনা অনুসরণ করা হয়নি: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#41 GPT-5.3 Chat

none

খরচ: $0.008
সময়: 8.1s
টোকেন: 634 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:40 নতুন টেস্ট যোগ হয়েছে	7.5	10.0	$0.571	তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে	7.2	10.0	$0.433	তুলনা করুন
2026-05-22 00:20 পুনরায় পরীক্ষা	7.4	10.0	$0.401	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	7.7	প্রযোজ্য নয়	$0.340	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:44 · প্রথম নথিভুক্ত রান	7.7	8.6	প্রযোজ্য নয়	11/18	3	20,784	$0.340	5.88s
2026-05-22 00:20 · পুনরায় পরীক্ষা	7.4	8.4	10.0	12/20	4	24,689	$0.401	6.10s
পার্থক্য	+0.3	+0.2		-1	-1	-3905	-$0.062	-216ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-5.3 ChatnonevsKimi K2.7 Codemedium GPT-5.3 ChatnonevsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য GPT-5.3 ChatnonevsGPT-5.6 Terralow GPT-5.3 ChatnonevsGPT-5.6 Lunamedium GPT-5.3 ChatnonevsGPT-5.4 Minimedium GPT-5.3 ChatnonevsGemini 3 Flash Previewmedium GPT-5.3 ChatnonevsGemini 3.5 Flashhigh GPT-5.3 ChatnonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	6.7	8.1
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	3.5	4.4
Sadharon Buddhimotta	4.6	10.0
নির্দেশনা অনুসরণ	8.3	10.0
ধাঁধা সমাধান	10.0	10.0
টুল কলিং	10.0	10.0

GPT-5.3 Chat

Hamster playing table tennis

#41 GPT-5.3 Chat

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল