AI BENCHY
Advertise here

#85

Trinity Large Preview

Arcee AI প্রকাশ: 2026-01-27 পরীক্ষিত হয়েছে: 2026-04-23 10:54 arcee-ai/trinity-large-preview::none

ধারাবাহিকতা

9.6

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

1,985

মোট ইনপুট টোকেন

0

ইনপুট মূল্য

$0.150 / 1M

আউটপুট মূল্য

$0.450 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 13

প্রতি চেষ্টায় পাস রেট: 29.6%

অস্থির টেস্ট

1

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

5.07s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 39.47s

প্রতিক্রিয়া সময় (মোট): 91.23s

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-22 00:42 স্যুইট পরিবর্তিত হয়েছে 4.8 10.0 $0.001 তুলনা করুন
2026-05-08 15:30 স্যুইট পরিবর্তিত হয়েছে 4.8 10.0 $0.001 তুলনা করুন
2026-04-23 10:54 প্রথম নথিভুক্ত রান 5.3 প্রযোজ্য নয় $0.000 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট ইনপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-23 10:54 · প্রথম নথিভুক্ত রান5.39.6প্রযোজ্য নয়5/1811,9850$0.0005.07s
2026-05-22 00:42 · স্যুইট পরিবর্তিত হয়েছে4.88.910.04/1932,1900$0.0013.03s
পার্থক্য+0.6+0.70-2-2050-$0.001+2037ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 3.0 10.0
কোডিং 6.3 10.0
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 5.3 10.0
Sadharon Buddhimotta 4.4 9.9
নির্দেশনা অনুসরণ 4.1 6.7
ধাঁধা সমাধান 5.4 10.0
টুল কলিং 10.0 10.0

তুলনা করা মডেল