AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

180

सबसे अधिक प्रभावित मॉडल

Mercury 2 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#13 GLM 5 medium Z.ai 1 8.4 13/18 23.3s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#52 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#24 Gemma 4 26B A4B medium Google 1 8.0 13/18 25.0s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#6 Seed-2.0-Lite medium Bytedance Seed 2 8.6 13/18 30.4s
#80 MiniMax M2.7 medium Minimax 6 5.3 4/18 31.1s
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#71 MiniMax M2.5 medium Minimax 3 5.7 5/18 39.6s
#57 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#27 DeepSeek V3.2 medium DeepSeek 1 8.0 12/18 46.4s
#10 Qwen3.5-27B medium Qwen 2 8.4 13/18 53.0s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल