AI BENCHY
Advertise here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#65 Grok 4.20 medium X AI 2 7.1 12/21 27.7s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#53 Gemini 3.1 Flash Lite high Google 3 7.3 10/18 62.0s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#70 GPT-5.4 Nano medium OpenAI 2 7.0 11/21 12.0s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#75 Ring-2.6-1T medium Inclusionai 2 6.9 11/21 61.3s
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल