AI BENCHY
Advertise here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#99 gpt-oss-120b medium OpenAI 3 6.1 9/21 22.3s
#101 Mimo V2 Omni none Xiaomi 1 6.0 8/21 2.44s
#102 Gemma 4 26B A4B none Google 2 6.0 8/21 5.91s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 6.0 8/21 2.27s
#105 Nemotron 3 Super medium NVIDIA 3 5.8 8/21 32.0s
#109 GLM 5V Turbo none Z.ai 2 5.8 8/21 2.99s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s
#100 Grok Build 0.1 none X AI 2 6.0 7/19 28.7s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#113 DeepSeek V4 Pro none DeepSeek 2 5.7 7/21 12.4s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 2 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 2 5.7 7/21 1.68s
#116 Hunter Alpha none OpenRouter 2 5.7 6/18 4.70s
#117 Qwen3.5-35B-A3B none Qwen 2 5.6 7/21 3.37s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल