AI BENCHY
Advertise here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

Mistral Small 4 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#141 Nemotron 3 Super none NVIDIA 2 4.9 5/21 5.30s
#102 Gemma 4 26B A4B none Google 2 6.0 8/21 5.91s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#24 GPT-5.2 Chat none OpenAI 1 7.9 14/21 7.13s
#159 Ling-2.6-1T none Inclusionai 2 4.3 3/21 7.72s
#150 Qwen3 Coder Next medium Qwen 3 4.6 4/21 8.58s
#140 Qwen3 Coder Next none Qwen 1 4.9 5/21 8.62s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s
#132 Mistral Small 4 medium Mistral 2 5.3 5/21 9.40s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#13 Grok 4.20 Beta medium X AI 1 8.5 14/18 9.75s
#121 Owl Alpha none Openrouter 3 5.5 7/21 9.88s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल