AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

डोमेन-विशिष्ट: गलत उत्तर

डोमेन-विशिष्ट
गलत उत्तर

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

3

कुल विफलताएँ

182

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Plus Preview 3

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल