#10

GPT-5.5

OpenAI প্রকাশ: 2026-04-24 পরীক্ষিত হয়েছে: 2026-05-08 15:31 openai/gpt-5.5::low

(medium) (low) (none)

সারাংশ

GPT-5.5 AI BENCHY-তে 8.9 স্কোর করে এবং #10 স্থানে আছে। এর reliability 10.0, pass rate 84.2%, মোট খরচ $0.706, এবং গড় response time 8.80s.

স্কোর

8.9

ধারাবাহিকতা

10.0

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.706

মোট আউটপুট টোকেন

18,922

মোট ইনপুট টোকেন

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$30.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 3

প্রতি চেষ্টায় পাস রেট: 84.2%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

8.80s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 56.19s

প্রতিক্রিয়া সময় (মোট): 167.26s

ভুল উত্তর: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.5

low

খরচ: $0.068
সময়: 37.0s
টোকেন: 2,339 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:35 নতুন টেস্ট যোগ হয়েছে	9.3	10.0	$1.253	তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে	9.0	10.0	$0.907	তুলনা করুন
2026-05-22 13:31 স্যুইট পরিবর্তিত হয়েছে	8.9	10.0	$0.822	তুলনা করুন
2026-05-08 15:31 স্যুইট পরিবর্তিত হয়েছে	8.9	10.0	$0.706	বর্তমান রান
2026-04-26 10:23 প্রথম রান	9.0	10.0	$0.681	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-08 15:31 · স্যুইট পরিবর্তিত হয়েছে	8.9	10.0	10.0	16/19	18,922	0	$0.706	8.80s
2026-06-04 13:47 · নতুন টেস্ট যোগ হয়েছে	9.0	10.0	10.0	18/21	24,506	34,209	$0.907	9.76s
পার্থক্য	-0.1	0.0	0.0	-2	-5584	-34209	-$0.201	-955ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-5.5lowvsGPT-5.6 Solhigh GPT-5.5lowvsGemini 3.1 Pro Previewmedium GPT-5.5lowvsGPT-5.6 Solmedium GPT-5.5lowvsClaude Opus 5high GPT-5.5lowvsGemini 3.6 Flashlow GPT-5.5lowvsClaude Opus 5medium GPT-5.5lowvsGPT-5.6 Sollow GPT-5.5lowvsQwen3.7 Maxmedium GPT-5.5lowvsGemini 3.5 Flashhigh GPT-5.5lowvsGemini 3.5 Flashmedium

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	9.9	10.0
ধাঁধা সমাধান	10.0	10.0
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

GPT-5.5

Hamster playing table tennis

#10 GPT-5.5

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল