AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 2
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#67 Grok 4.20 Multi Agent Beta medium X AI 4 6.4 7/18 9.80s
#66 MiMo-V2-Omni none Xiaomi 2 6.5 8/18 1.99s
#65 Mercury 2 medium Inception 4 6.5 8/18 2.21s
#63 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#62 DeepSeek V4 Pro none DeepSeek 1 6.7 9/18 23.3s
#61 Nemotron 3 Super medium NVIDIA 4 6.7 9/18 19.1s
#60 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#59 GPT-5.5 none OpenAI 1 6.8 9/18 1.83s
#57 DeepSeek V4 Pro high DeepSeek 3 6.8 11/18 60.0s
#56 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#55 Grok 4.20 medium X AI 4 7.0 9/18 10.3s
#54 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#53 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#52 GPT-5.4 Mini medium OpenAI 5 7.3 9/18 15.2s
#50 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल