AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग: गलत उत्तर

टूल कॉलिंग
गलत उत्तर

देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

2

कुल विफलताएँ

2

सबसे अधिक प्रभावित मॉडल

GLM 4.7 Flash 1

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल