AI BENCHY
Your ad here

AI BENCHY বিভাগীয় ব্যর্থতা

টুল কলিং: ভুল উত্তর

টুল কলিং
ভুল উত্তর

দেখুন টুল কলিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

2

মোট ব্যর্থতা

2

সবচেয়ে বেশি প্রভাবিত মডেল

Grok 4.1 Fast 1

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল