#13

GPT-5.3-Codex

OpenAI প্রকাশ: 2026-02-05 পরীক্ষিত হয়েছে: 2026-06-04 13:45 openai/gpt-5.3-codex::medium

সারাংশ

GPT-5.3-Codex AI BENCHY-তে 8.9 স্কোর করে এবং #13 স্থানে আছে। এর reliability 10.0, pass rate 82.5%, মোট খরচ $0.740, এবং গড় response time 16.22s.

স্কোর

8.9

ধারাবাহিকতা

8.5

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.740

মোট আউটপুট টোকেন

48,546

মোট ইনপুট টোকেন

34,299

ইনপুট মূল্য

$1.750 / 1M

আউটপুট মূল্য

$14.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 6

প্রতি চেষ্টায় পাস রেট: 82.5%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

16.22s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 100.93s

প্রতিক্রিয়া সময় (মোট): 340.67s

ভুল উত্তর: 4 নির্দেশনা অনুসরণ করা হয়নি: 2

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#13 GPT-5.3-Codex

medium

খরচ: $0.049
সময়: 54.9s
টোকেন: 3,580 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:45 নতুন টেস্ট যোগ হয়েছে	8.4	10.0	$0.740	বর্তমান রান
2026-05-22 00:19 পুনরায় পরীক্ষা	8.3	10.0	$0.685	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	8.6	প্রযোজ্য নয়	$0.573	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-06-04 13:45 · বর্তমান রান	8.9	8.5	10.0	15/21	4	48,546	34,299	$0.740	16.22s
2026-04-11 01:44 · প্রথম নথিভুক্ত রান	8.6	8.7	প্রযোজ্য নয়	13/18	3	37,458	0	$0.573	15.38s
পার্থক্য	+0.4	-0.2		+2	+1	+11088	+34299	+$0.168	+838ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

মূল্যের ইতিহাস

OpenRouter থেকে এই মডেলের ঐতিহাসিক মূল্য তথ্য।

তারিখ	ইনপুট মূল্য	আউটপুট মূল্য
2026-06-04 15:40	$1.750 / 1M	$14.000 / 1M

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-5.3-CodexmediumvsGPT-5.5medium GPT-5.3-CodexmediumvsQwen3.6 Max Previewmedium GPT-5.3-CodexmediumvsGemini 3.5 Flashmedium GPT-5.3-CodexmediumvsClaude Opus 4.8medium GPT-5.3-CodexmediumvsGemini 3.1 Pro Previewmedium GPT-5.3-CodexmediumvsClaude Opus 4.7medium GPT-5.3-CodexmediumvsGemini 3.5 Flashhigh GPT-5.3-CodexmediumvsGemini 3 Flash Previewmedium GPT-5.3-CodexmediumvsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য GPT-5.3-CodexmediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.7	7.9
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.9	7.2
Sadharon Buddhimotta	4.6	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	9.0	7.9
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	2.8	1.6

GPT-5.3-Codex

Hamster playing table tennis

#13 GPT-5.3-Codex

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল