AI BENCHY
Advertise here

AI BENCHY বিভাগীয় ব্যর্থতা

সাধারণ জ্ঞান: ভুল উত্তর

সাধারণ জ্ঞান
ভুল উত্তর

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: মোট খরচ ↑.

দেখানো মডেল

15

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Owl Alpha 1
133/133
র‍্যাঙ্ক মডেল কোম্পানি ভুল উত্তর সংখ্যা বিভাগ স্কোর মোট খরচ সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল