AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 2
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#84 Hunter Alpha none OpenRouter 2 5.7 6/18 4.58s
#83 MiniMax M2.5 medium Minimax 3 5.7 5/18 39.6s
#82 Qwen3.5-122B-A10B none Qwen 1 5.7 6/18 3.69s
#81 MiMo-V2.5-Pro none Xiaomi 2 5.8 6/18 1.51s
#80 Kimi K2.6 none Moonshot AI 3 5.8 7/18 2.05s
#79 gpt-oss-120b medium OpenAI 4 5.8 7/18 16.1s
#78 Qwen3.5-27B none Qwen 2 5.9 6/18 1.74s
#77 GPT-5.4 none OpenAI 1 5.9 7/18 1.51s
#76 MiMo-V2-Pro none Xiaomi 2 6.0 7/18 2.39s
#74 Qwen3.5-35B-A3B none Qwen 2 6.1 7/18 3.82s
#73 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#71 Gemma 4 26B A4B none Google 3 6.2 7/18 6.59s
#70 Qwen3.5-Flash none Qwen 1 6.2 8/18 3.25s
#69 GLM 5V Turbo none Z.ai 2 6.2 8/18 3.10s
#68 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल