AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 2
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#49 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#48 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#47 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#46 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#44 GPT-5.3 Chat none OpenAI 2 7.7 11/18 5.88s
#43 MiMo-V2-Omni medium Xiaomi 2 7.7 11/18 16.8s
#42 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#41 MiMo-V2.5 medium Xiaomi 1 7.8 12/18 13.7s
#39 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#38 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s
#37 DeepSeek V4 Flash high DeepSeek 3 7.8 11/18 45.4s
#36 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#35 Gemini 3.1 Flash Lite Preview none Google 2 7.9 12/18 1.30s
#34 GPT-5.2 Chat none OpenAI 1 7.9 12/18 6.84s
#33 DeepSeek V3.2 medium DeepSeek 1 8.0 12/18 43.5s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल