AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

180

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Plus Preview 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#78 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#95 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#25 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#57 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#60 Gemma 4 26B A4B none Google 3 6.2 7/18 6.59s
#69 Kimi K2.6 none Moonshot AI 3 5.8 7/18 2.05s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल