AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

GPT-5.5 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#24 HY3 Preview low Tencent 2 8.1 13/18 24.0s
#26 Gemini 3.1 Flash Lite Preview low Google 1 8.1 13/18 3.22s
#27 MiMo-V2.5-Pro medium Xiaomi 2 8.1 12/18 16.2s
#28 MiMo-V2-Pro medium Xiaomi 1 8.1 12/18 12.3s
#29 HY3 Preview medium Tencent 2 8.1 13/18 14.6s
#30 Gemma 4 26B A4B medium Google 1 8.0 13/18 25.0s
#31 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#33 DeepSeek V3.2 medium DeepSeek 1 8.0 12/18 43.5s
#34 GPT-5.2 Chat none OpenAI 1 7.9 12/18 6.84s
#35 Gemini 3.1 Flash Lite Preview none Google 2 7.9 12/18 1.30s
#36 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#37 DeepSeek V4 Flash high DeepSeek 3 7.8 11/18 45.4s
#38 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s
#39 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#41 MiMo-V2.5 medium Xiaomi 1 7.8 12/18 13.7s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल