AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

7

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

GPT-5.5 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#109 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#110 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#111 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#112 Ling 2.6 1t none Inclusionai 3 4.5 3/18 8.79s
#113 GPT-5.4 Nano none OpenAI 3 4.5 2/18 1.40s
#114 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#115 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल