AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

एंटी-एआई ट्रिक्स
निर्देशों का पालन नहीं किया

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

19

सबसे अधिक प्रभावित मॉडल

Gemini 3.1 Flash Lite Preview 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#20 Gemini 3.1 Flash Lite Preview medium Google 1 9.1 3/4 2.33s
#35 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#38 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s
#42 Kimi K2.6 medium Moonshot AI 1 7.0 2/4 11.6s
#44 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#48 GPT-5.2 medium OpenAI 1 6.5 2/4 7.81s
#53 GPT-5 Mini medium OpenAI 1 7.1 2/4 13.9s
#65 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#79 gpt-oss-120b medium OpenAI 1 6.7 2/4 10.2s
#83 MiniMax M2.5 medium Minimax 1 7.9 2/4 20.8s
#94 MiniMax M2.7 medium Minimax 1 7.9 2/4 40.3s
#98 gpt-oss-120b none OpenAI 1 6.6 2/4 6.03s
#99 Elephant Alpha none Openrouter 1 6.6 2/4 963ms
#108 HY3 Preview none Tencent 2 4.8 1/4 11.1s
#109 GLM 4.7 Flash medium Z.ai 1 4.7 1/4 15.0s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल