#91

gpt-oss-120b

OpenAI প্রকাশ: 2025-08-05 পরীক্ষিত হয়েছে: 2026-04-21 12:42 openai/gpt-oss-120b::none

(medium) (none)

সারাংশ

gpt-oss-120b AI BENCHY-তে 5.2 স্কোর করে এবং #91 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 38.9%, মোট খরচ $0.009, এবং গড় response time 11.96s.

gpt-oss-120b কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

5.2

ধারাবাহিকতা

7.9

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.009

মোট আউটপুট টোকেন

44,652

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 14

প্রতি চেষ্টায় পাস রেট: 38.9%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

11.96s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 68.97s

প্রতিক্রিয়া সময় (মোট): 179.34s

ভুল উত্তর: 6 নির্দেশনা অনুসরণ করা হয়নি: 5 API ত্রুটি: 3

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	সঠিক টেস্ট	মোট খরচ	তুলনা করুন
2026-05-08 15:31 স্যুইট পরিবর্তিত হয়েছে	5.4	10.0		$0.010 ↓	তুলনা করুন
2026-04-21 12:42 প্রথম নথিভুক্ত রান	5.2	প্রযোজ্য নয়		$0.009	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-21 12:42 · প্রথম নথিভুক্ত রান	5.2	7.9	প্রযোজ্য নয়	4/18	5	44,652	0	$0.009	11.96s
2026-05-08 15:31 · স্যুইট পরিবর্তিত হয়েছে	5.4	9.1	10.0	6/19	2	51,664	9,081	$0.010	21.61s
পার্থক্য	-0.2	-1.2		-2	+3	-7012	-9081	-$0.001	-9656ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	6.6	8.0
কোডিং	4.3	1.1
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	6.5	10.0
ডোমেইন-নির্দিষ্ট	3.0	10.0
Sadharon Buddhimotta	4.6	10.0
নির্দেশনা অনুসরণ	8.4	6.9
ধাঁধা সমাধান	4.5	4.8
টুল কলিং	3.0	10.0

gpt-oss-120b

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল