AI BENCHY
Advertise here
#84

Cobuddy

Baidu প্রকাশ: 2026-05-06 পরীক্ষিত হয়েছে: 2026-05-06 11:30 baidu/cobuddy::medium

সারাংশ

Cobuddy AI BENCHY-তে 6.0 স্কোর করে এবং #84 স্থানে আছে। এর reliability 9.9, pass rate 53.7%, মোট খরচ $0.000, এবং গড় response time 35.89s.

Cobuddy কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

ধারাবাহিকতা

7.6

মোট আউটপুট টোকেন

88,220

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.000 / 1M

আউটপুট মূল্য

$0.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 53.7%

অস্থির টেস্ট

5

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

35.89s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 309.02s

প্রতিক্রিয়া সময় (মোট): 646.00s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#84 Cobuddy

medium
No endpoints found for baidu/cobuddy:free.
খরচ
$0.000
সময়
0.1s
টোকেন
0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-06-04 13:47 নতুন টেস্ট যোগ হয়েছে 5.6 10.0 $0.000 তুলনা করুন
2026-05-22 00:23 স্যুইট পরিবর্তিত হয়েছে 5.7 9.9 $0.000 তুলনা করুন
2026-05-06 11:30 প্রথম নথিভুক্ত রান 6.0 9.9 $0.000 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-05-06 11:30 · প্রথম নথিভুক্ত রান6.07.69.97/18588,2200$0.00035.89s
2026-05-22 00:23 · স্যুইট পরিবর্তিত হয়েছে5.77.09.97/207118,1850$0.00039.91s
পার্থক্য+0.3+0.60.00-2-299650$0.000-4022ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 8.7 7.9
কোডিং 4.3 1.1
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 6.3 5.8
ডোমেইন-নির্দিষ্ট 2.9 7.2
Sadharon Buddhimotta 4.2 9.9
নির্দেশনা অনুসরণ 9.8 10.0
ধাঁধা সমাধান 3.7 6.8
টুল কলিং 10.0 10.0

তুলনা করা মডেল