AI BENCHY
Advertise here
#97

GPT-4o-mini

OpenAI প্রকাশ: 2024-07-18 পরীক্ষিত হয়েছে: 2026-04-11 01:19 openai/gpt-4o-mini::none

সারাংশ

GPT-4o-mini AI BENCHY-তে 4.9 স্কোর করে এবং #97 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 22.2%, মোট খরচ $0.005, এবং গড় response time 2.00s.

ধারাবাহিকতা

9.9

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

1,947

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.150 / 1M

আউটপুট মূল্য

$0.600 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 14

প্রতি চেষ্টায় পাস রেট: 22.2%

অস্থির টেস্ট

0

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

2.00s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 7.58s

প্রতিক্রিয়া সময় (মোট): 21.99s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#97 GPT-4o-mini

none
খরচ
$0.001
সময়
6.6s
টোকেন
742 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 13:04 নতুন টেস্ট যোগ হয়েছে 4.8 10.0 $0.006 তুলনা করুন
2026-05-21 23:41 স্যুইট পরিবর্তিত হয়েছে 4.9 10.0 $0.006 তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান 4.9 প্রযোজ্য নয় $0.005 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-11 01:19 · প্রথম নথিভুক্ত রান4.99.9প্রযোজ্য নয়4/1801,9470$0.0052.00s
2026-06-04 13:04 · নতুন টেস্ট যোগ হয়েছে4.89.910.05/2101,98231,518$0.0061.77s
পার্থক্য+0.10.0-10-35-31518-$0.002+228ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 4.8 10.0
কোডিং 3.0 8.7
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 3.0 10.0
Sadharon Buddhimotta 4.0 10.0
নির্দেশনা অনুসরণ 4.8 10.0
ধাঁধা সমাধান 3.7 10.0
টুল কলিং 10.0 10.0

তুলনা করা মডেল