#49

GPT-5.4 Mini

OpenAI প্রকাশ: 2026-03-17 পরীক্ষিত হয়েছে: 2026-04-11 01:44 openai/gpt-5.4-mini::medium

(medium) (none)

সারাংশ

GPT-5.4 Mini AI BENCHY-তে 7.3 স্কোর করে এবং #49 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 70.4%, মোট খরচ $0.299, এবং গড় response time 15.22s.

GPT-5.4 Mini কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর নির্দেশনা অনুসরণ এর দুর্বলতম ক্ষেত্র, rank #17.

স্কোর

7.3

ধারাবাহিকতা

7.4

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.299

মোট আউটপুট টোকেন

61,698

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.750 / 1M

আউটপুট মূল্য

$4.500 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 9

প্রতি চেষ্টায় পাস রেট: 70.4%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

15.22s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 102.91s

প্রতিক্রিয়া সময় (মোট): 273.90s

নির্দেশনা অনুসরণ করা হয়নি: 5 ভুল উত্তর: 4

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GPT-5.4 Mini

medium

খরচ: $0.056
সময়: 95.5s
টোকেন: 12,464 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:38 নতুন টেস্ট যোগ হয়েছে	7.5	10.0	$0.756	তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে	7.5	10.0	$0.526	তুলনা করুন
2026-05-22 00:21 স্যুইট পরিবর্তিত হয়েছে	7.1	10.0	$0.487	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	7.3	প্রযোজ্য নয়	$0.299	বর্তমান রান

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-5.4 MinimediumvsGPT-5.6 Terralow GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15medium GPT-5.4 MinimediumvsGPT-5.3 Chatnone GPT-5.4 MinimediumvsQwen3.5-27Bmedium GPT-5.4 MinimediumvsGPT-5.4 Nanomedium GPT-5.4 MinimediumvsQwen3.7 Maxnone GPT-5.4 MinimediumvsKimi K2.7 Codemedium GPT-5.4 MinimediumvsLongCat 2.0medium GPT-5.4 MinimediumvsClaude Opus 5none GPT-5.4 MinimediumvsGemini 3 Flash Previewlow

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.6	7.9
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	4.1	4.4
Sadharon Buddhimotta	4.5	10.0
নির্দেশনা অনুসরণ	7.4	6.5
ধাঁধা সমাধান	6.8	7.9
টুল কলিং	4.7	1.6

GPT-5.4 Mini

Hamster playing table tennis

#49 GPT-5.4 Mini

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল