#86

GPT-5.5

OpenAI প্রকাশ: 2026-04-24 পরীক্ষিত হয়েছে: 2026-05-22 00:19 openai/gpt-5.5::none

(medium) (low) (none)

সারাংশ

GPT-5.5 AI BENCHY-তে 6.5 স্কোর করে এবং #86 স্থানে আছে। এর reliability 10.0, pass rate 56.7%, মোট খরচ $0.217, এবং গড় response time 1.94s.

GPT-5.5 কে আলাদা করে যা: একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

স্কোর

6.5

ধারাবাহিকতা

8.7

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.217

মোট আউটপুট টোকেন

1,949

মোট ইনপুট টোকেন

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$30.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 10

প্রতি চেষ্টায় পাস রেট: 56.7%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

1.94s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 5.56s

প্রতিক্রিয়া সময় (মোট): 38.86s

ভুল উত্তর: 10

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#86 GPT-5.5

none

খরচ: $0.090
সময়: 54.3s
টোকেন: 3,063 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:34 নতুন টেস্ট যোগ হয়েছে	6.9	10.0	$0.544	তুলনা করুন
2026-06-04 13:46 নতুন টেস্ট যোগ হয়েছে	6.4	10.0	$0.231	তুলনা করুন
2026-05-22 00:19 স্যুইট পরিবর্তিত হয়েছে	6.5	10.0	$0.217	বর্তমান রান
2026-04-24 19:59 প্রথম রান	6.8	প্রযোজ্য নয়	$0.195	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-5.5nonevsStep 3.7 Flashhigh GPT-5.5nonevsGemini 3.5 Flashminimal GPT-5.5nonevsQwen3.6 Flashmedium GPT-5.5nonevsGemini 3 Flash Previewnone GPT-5.5nonevsMiMo-V2.5-Promedium GPT-5.5nonevsQwen3.6 35B A3Bmedium GPT-5.5nonevsGPT-5.6 Solnone GPT-5.5nonevsGemini 3.5 Flash-Litelow GPT-5.5nonevsDeepSeek V4 Pronone GPT-5.5nonevsLongCat 2.0low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	6.9	7.9
কোডিং	6.8	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	2.9	7.2
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	6.2	5.8
ধাঁধা সমাধান	7.7	10.0
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

GPT-5.5

Hamster playing table tennis

#86 GPT-5.5

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল