AI BENCHY
Advertise here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Grok 4.20 Multi Agent Beta 2
121/121
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर कुल लागत सही परीक्षण प्रतिक्रिया समय (औसत)

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल