#97

GPT-4o-mini

OpenAI প্রকাশ: 2024-07-18 পরীক্ষিত হয়েছে: 2026-04-11 01:19 openai/gpt-4o-mini::none

সারাংশ

GPT-4o-mini AI BENCHY-তে 4.9 স্কোর করে এবং #97 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 22.2%, মোট খরচ $0.005, এবং গড় response time 2.00s.

স্কোর

4.9

ধারাবাহিকতা

9.9

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.005

মোট আউটপুট টোকেন

1,947

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.150 / 1M

আউটপুট মূল্য

$0.600 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 14

প্রতি চেষ্টায় পাস রেট: 22.2%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

2.00s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 7.58s

প্রতিক্রিয়া সময় (মোট): 21.99s

ভুল উত্তর: 13 নির্দেশনা অনুসরণ করা হয়নি: 1

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#97 GPT-4o-mini

none

খরচ: $0.001
সময়: 6.6s
টোকেন: 742 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:04 নতুন টেস্ট যোগ হয়েছে	4.8	10.0	$0.006	তুলনা করুন
2026-05-21 23:41 স্যুইট পরিবর্তিত হয়েছে	4.9	10.0	$0.006	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	4.9	প্রযোজ্য নয়	$0.005	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:19 · প্রথম নথিভুক্ত রান	4.9	9.9	প্রযোজ্য নয়	4/18	1,947	0	$0.005	2.00s
2026-06-04 13:04 · নতুন টেস্ট যোগ হয়েছে	4.8	9.9	10.0	5/21	1,982	31,518	$0.006	1.77s
পার্থক্য	+0.1	0.0		-1	-35	-31518	-$0.002	+228ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

GPT-4o-mininonevsDeepSeek V4 Flashnone GPT-4o-mininonevsClaude Sonnet 5none GPT-4o-mininonevsKimi K2.5none GPT-4o-mininonevsMiMo-V2.5-Pronone GPT-4o-mininonevsGemini 3.5 Flashhigh GPT-4o-mininonevsGemini 3 Flash Previewmedium GPT-4o-mininonevsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য GPT-4o-mininonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	4.8	10.0
কোডিং	3.0	8.7
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	3.0	10.0
Sadharon Buddhimotta	4.0	10.0
নির্দেশনা অনুসরণ	4.8	10.0
ধাঁধা সমাধান	3.7	10.0
টুল কলিং	10.0	10.0

GPT-4o-mini

Hamster playing table tennis

#97 GPT-4o-mini

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল