AI BENCHY
तुलना करें चार्ट Karyapranali
❤️ Made by XCS
Your ad here

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग
गलत उत्तर

देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

2

कुल विफलताएँ

2

सबसे अधिक प्रभावित मॉडल

GLM 4.7 Flash 1

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम औसत स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल