#11

GPT-5.5

OpenAI প্রকাশ: 2026-04-24 পরীক্ষিত হয়েছে: 2026-05-22 00:21 openai/gpt-5.5::medium

(medium) (low) (none)

সারাংশ

GPT-5.5 AI BENCHY-তে 8.7 স্কোর করে এবং #11 স্থানে আছে। এর reliability 10.0, pass rate 86.7%, মোট খরচ $3.503, এবং গড় response time 37.89s.

স্কোর

8.7

ধারাবাহিকতা

8.8

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$3.503

মোট আউটপুট টোকেন

111,483

মোট ইনপুট টোকেন

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$30.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 4

প্রতি চেষ্টায় পাস রেট: 86.7%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

37.89s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 332.10s

প্রতিক্রিয়া সময় (মোট): 757.71s

ভুল উত্তর: 4

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#11 GPT-5.5

medium

খরচ: $0.112
সময়: 71.9s
টোকেন: 3,807 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:37 নতুন টেস্ট যোগ হয়েছে	9.0	10.0	$4.137	তুলনা করুন
2026-06-04 13:48 নতুন টেস্ট যোগ হয়েছে	8.8	10.0	$3.679	তুলনা করুন
2026-05-22 00:21 স্যুইট পরিবর্তিত হয়েছে	8.7	10.0	$3.503	বর্তমান রান
2026-04-24 20:23 প্রথম রান	9.0	প্রযোজ্য নয়	$2.884	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-5.5mediumvsGemini 3.5 Flashmedium GPT-5.5mediumvsGemini 3.5 Flashlow GPT-5.5mediumvsQwen3.7 Maxmedium GPT-5.5mediumvsGrok 4.5high GPT-5.5mediumvsGemini 3.1 Pro Previewmedium GPT-5.5mediumvsGPT-5.3-Codexmedium GPT-5.5mediumvsGPT-5.5low GPT-5.5mediumvsClaude Opus 4.8medium GPT-5.5mediumvsGPT-5.6 Solhigh GPT-5.5mediumvsClaude Opus 4.7medium

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	8.2	6.7
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	10.0	10.0
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	2.8	1.6

GPT-5.5

Hamster playing table tennis

#11 GPT-5.5

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল