AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

GPT-5.5 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#78 Qwen3.5-27B none Qwen 2 5.9 6/18 1.74s
#79 gpt-oss-120b medium OpenAI 4 5.8 7/18 16.1s
#80 Kimi K2.6 none Moonshot AI 3 5.8 7/18 2.05s
#81 MiMo-V2.5-Pro none Xiaomi 2 5.8 6/18 1.51s
#82 Qwen3.5-122B-A10B none Qwen 1 5.7 6/18 3.69s
#83 MiniMax M2.5 medium Minimax 3 5.7 5/18 39.6s
#84 Hunter Alpha none OpenRouter 2 5.7 6/18 4.58s
#85 Mistral Small 4 medium Mistral 3 5.7 5/18 5.64s
#86 GLM 4.7 Flash none Z.ai 2 5.6 5/18 3.35s
#87 GLM 5.1 none Z.ai 2 5.6 5/18 4.33s
#89 GLM 5 Turbo none Z.ai 2 5.5 6/18 2.94s
#90 Ling 2.6 Flash none Inclusionai 3 5.4 6/18 11.3s
#91 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#92 DeepSeek V4 Flash none DeepSeek 2 5.3 5/18 29.4s
#93 Grok 4.20 Beta none X AI 3 5.3 4/18 1.19s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल