AI BENCHY
Advertise here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

Mistral Small 4 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#70 GPT-5.4 Nano medium OpenAI 2 7.0 11/21 12.0s
#113 DeepSeek V4 Pro none DeepSeek 2 5.7 7/21 12.4s
#156 Hy3 preview none Tencent 4 4.4 4/21 12.9s
#124 Kimi K2.6 none Moonshot AI 3 5.5 7/21 13.3s
#133 DeepSeek V3.2 none DeepSeek 1 5.2 6/21 13.8s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#28 Gemini 2.5 Flash medium Google 1 7.8 14/21 15.5s
#15 GPT-5.3-Codex medium OpenAI 2 8.4 15/21 16.2s
#33 Hy3 preview medium Tencent 1 7.7 14/21 16.3s
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 4.6 4/19 17.1s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#39 Qwen3.6 Flash medium Qwen 1 7.5 12/21 19.2s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल