#71

GPT-5.4

OpenAI প্রকাশ: 2026-03-05 পরীক্ষিত হয়েছে: 2026-04-11 01:44 openai/gpt-5.4::none

(medium) (none)

সারাংশ

GPT-5.4 AI BENCHY-তে 5.9 স্কোর করে এবং #71 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 42.6%, মোট খরচ $0.104, এবং গড় response time 1.51s.

GPT-5.4 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর অ্যান্টি-এআই কৌশল এর দুর্বলতম ক্ষেত্র, rank #18. একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

স্কোর

5.9

ধারাবাহিকতা

9.1

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.104

মোট আউটপুট টোকেন

2,317

মোট ইনপুট টোকেন

ইনপুট মূল্য

$2.500 / 1M

আউটপুট মূল্য

$15.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 42.6%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

1.51s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 2.95s

প্রতিক্রিয়া সময় (মোট): 27.21s

ভুল উত্তর: 10 নির্দেশনা অনুসরণ করা হয়নি: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#71 GPT-5.4

none

খরচ: $0.026
সময়: 18.1s
টোকেন: 1,792 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:33 নতুন টেস্ট যোগ হয়েছে	5.8	10.0	$0.397	তুলনা করুন
2026-06-04 13:45 নতুন টেস্ট যোগ হয়েছে	5.5	10.0	$0.122	তুলনা করুন
2026-05-22 00:18 স্যুইট পরিবর্তিত হয়েছে	5.6	10.0	$0.115	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	5.9	প্রযোজ্য নয়	$0.104	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:44 · প্রথম নথিভুক্ত রান	5.9	9.1	প্রযোজ্য নয়	7/18	2	2,317	$0.104	1.51s
2026-05-22 00:18 · স্যুইট পরিবর্তিত হয়েছে	5.6	9.1	10.0	7/20	2	2,378	$0.115	1.46s
পার্থক্য	+0.3	0.0		0	0	-61	-$0.012	+50ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-5.4nonevsGPT-5 Nanomedium GPT-5.4nonevsStep 3.5 Flashmedium GPT-5.4nonevsQwen3.5-35B-A3Bnone GPT-5.4nonevsQwen3.5 Plus 2026-04-20none GPT-5.4nonevsGPT-5.6 Terranone GPT-5.4nonevsGemini 3 Flash Previewmedium GPT-5.4nonevsGemini 3.5 Flashhigh GPT-5.4nonevsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য GPT-5.4nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.2	8.0
কোডিং	10.0	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	4.4	9.9
নির্দেশনা অনুসরণ	6.5	10.0
ধাঁধা সমাধান	5.6	9.8
টুল কলিং	10.0	10.0

GPT-5.4

Hamster playing table tennis

#71 GPT-5.4

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল