AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग: गलत उत्तर

टूल कॉलिंग
गलत उत्तर

देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

2

कुल विफलताएँ

2

सबसे अधिक प्रभावित मॉडल

GLM 4.7 Flash 1

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल