AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#49

GPT-5.4 Mini

OpenAI প্রকাশ: 2026-03-17 পরীক্ষিত হয়েছে: 2026-04-11 01:44 openai/gpt-5.4-mini::medium
(medium) (none)

সারাংশ

GPT-5.4 Mini AI BENCHY-তে 7.3 স্কোর করে এবং #49 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 70.4%, মোট খরচ $0.299, এবং গড় response time 15.22s.

GPT-5.4 Mini কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর নির্দেশনা অনুসরণ এর দুর্বলতম ক্ষেত্র, rank #16.

ধারাবাহিকতা

7.4

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

61,698

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.750 / 1M

আউটপুট মূল্য

$4.500 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 9

প্রতি চেষ্টায় পাস রেট: 70.4%

অস্থির টেস্ট

6

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

15.22s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 102.91s

প্রতিক্রিয়া সময় (মোট): 273.90s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GPT-5.4 Mini

medium
Cost
$0.056
Time
95.5s
Tokens
12,464 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে 7.5 10.0 $0.526 তুলনা করুন
2026-05-22 00:21 স্যুইট পরিবর্তিত হয়েছে 7.1 10.0 $0.487 তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান 7.3 প্রযোজ্য নয় $0.299 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-11 01:44 · প্রথম নথিভুক্ত রান7.37.4প্রযোজ্য নয়9/18661,6980$0.29915.22s
2026-05-22 00:21 · স্যুইট পরিবর্তিত হয়েছে7.17.610.010/206102,8920$0.48722.14s
পার্থক্য+0.2-0.2-10-411940-$0.189-6920ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 8.6 7.9
কোডিং 10.0 10.0
সমন্বিত 10.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 4.1 4.4
Sadharon Buddhimotta 4.5 10.0
নির্দেশনা অনুসরণ 7.4 6.5
ধাঁধা সমাধান 6.8 7.9
টুল কলিং 4.7 1.6

তুলনা করা মডেল