AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग: निर्देशों का पालन नहीं किया

टूल कॉलिंग
निर्देशों का पालन नहीं किया

देखें कि टूल कॉलिंग में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

6

कुल विफलताएँ

6

सबसे अधिक प्रभावित मॉडल

Grok 4.20 Beta 1

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल