AI BENCHY
तुलना करें चार्ट Karyapranali
❤️ Made by XCS
Your ad here

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग
गलत उत्तर

देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

2

कुल विफलताएँ

2

सबसे अधिक प्रभावित मॉडल

GLM 4.7 Flash 1

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम औसत स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल