AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 2
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#31 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#30 Gemma 4 26B A4B medium Google 1 8.0 13/18 25.0s
#29 HY3 Preview medium Tencent 2 8.1 13/18 14.6s
#28 MiMo-V2-Pro medium Xiaomi 1 8.1 12/18 12.3s
#27 MiMo-V2.5-Pro medium Xiaomi 2 8.1 12/18 16.2s
#26 Gemini 3.1 Flash Lite Preview low Google 1 8.1 13/18 3.22s
#24 HY3 Preview low Tencent 2 8.1 13/18 24.0s
#23 Qwen3.6 Plus medium Qwen 1 8.1 13/18 15.3s
#21 GLM 5 Turbo medium Z.ai 2 8.1 12/18 17.7s
#20 Gemini 3.1 Flash Lite Preview medium Google 1 8.2 13/18 3.74s
#19 GPT-5.4 medium OpenAI 2 8.2 13/18 18.6s
#18 Gemini 2.5 Flash medium Google 1 8.2 13/18 12.1s
#17 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#16 GLM 5 medium Z.ai 1 8.4 13/18 23.3s
#14 Gemini 3.1 Flash Lite Preview high Google 1 8.4 12/16 68.8s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल