AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 2
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#115 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#114 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#113 GPT-5.4 Nano none OpenAI 3 4.5 2/18 1.40s
#112 Ling 2.6 1t none Inclusionai 3 4.5 3/18 8.79s
#111 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#110 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#109 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#108 HY3 Preview none Tencent 4 4.7 4/18 13.6s
#107 Qwen3 Coder Next medium Qwen 5 4.7 3/18 10.8s
#106 Mercury 2 none Inception 1 4.8 4/18 613ms
#105 Qwen3.5-9B none Qwen 3 4.8 4/18 1.47s
#104 GPT-4o-mini none OpenAI 1 4.9 4/18 2.00s
#103 Nemotron 3 Super none NVIDIA 4 5.1 4/18 8.54s
#102 MiMo-V2.5 none Xiaomi 2 5.1 5/18 1.05s
#101 Qwen3 Coder Next none Qwen 1 5.1 4/18 10.2s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल