AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

GPT-5.5 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#60 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#61 Nemotron 3 Super medium NVIDIA 4 6.7 9/18 19.1s
#62 DeepSeek V4 Pro none DeepSeek 1 6.7 9/18 23.3s
#63 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#65 Mercury 2 medium Inception 4 6.5 8/18 2.21s
#66 MiMo-V2-Omni none Xiaomi 2 6.5 8/18 1.99s
#67 Grok 4.20 Multi Agent Beta medium X AI 4 6.4 7/18 9.80s
#68 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#69 GLM 5V Turbo none Z.ai 2 6.2 8/18 3.10s
#70 Qwen3.5-Flash none Qwen 1 6.2 8/18 3.25s
#71 Gemma 4 26B A4B none Google 3 6.2 7/18 6.59s
#73 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#74 Qwen3.5-35B-A3B none Qwen 2 6.1 7/18 3.82s
#76 MiMo-V2-Pro none Xiaomi 2 6.0 7/18 2.39s
#77 GPT-5.4 none OpenAI 1 5.9 7/18 1.51s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल