AI BENCHY
Advertise here
#5

GPT-5.5

OpenAI প্রকাশ: 2026-04-24 পরীক্ষিত হয়েছে: 2026-04-24 20:23 openai/gpt-5.5::medium
(medium) (low) (none)

সারাংশ

GPT-5.5 AI BENCHY-তে 9.0 স্কোর করে এবং #5 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 87.0%, মোট খরচ $2.884, এবং গড় response time 32.75s.

GPT-5.5 কে আলাদা করে যা: এটি সামগ্রিকভাবে সর্বোচ্চ rank করা মডেলগুলোর একটি।

ধারাবাহিকতা

9.2

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

91,552

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$30.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 3

প্রতি চেষ্টায় পাস রেট: 87.0%

অস্থির টেস্ট

2

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

32.75s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 332.10s

প্রতিক্রিয়া সময় (মোট): 589.59s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#5 GPT-5.5

medium
Cost
$0.112
Time
71.9s
Tokens
3,807 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 13:48 নতুন টেস্ট যোগ হয়েছে 8.8 10.0 $3.679 তুলনা করুন
2026-05-22 00:21 স্যুইট পরিবর্তিত হয়েছে 8.7 10.0 $3.503 তুলনা করুন
2026-04-24 20:23 প্রথম রান 9.0 প্রযোজ্য নয় $2.884 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-24 20:23 · প্রথম রান9.09.2প্রযোজ্য নয়15/18291,5520$2.88432.75s
2026-06-04 13:48 · নতুন টেস্ট যোগ হয়েছে8.88.910.017/213116,91034,212$3.67937.98s
পার্থক্য+0.2+0.3-2-1-25358-34212-$0.795-5226ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 10.0 10.0
কোডিং 10.0 10.0
সমন্বিত 10.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 5.3 7.2
Sadharon Buddhimotta 10.0 10.0
নির্দেশনা অনুসরণ 10.0 10.0
ধাঁধা সমাধান 8.6 7.9
টুল কলিং 10.0 10.0

তুলনা করা মডেল