AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी विफलताएँ

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

एंटी-एआई ट्रिक्स
निर्देशों का पालन नहीं किया

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

19

सबसे अधिक प्रभावित मॉडल

Elephant Alpha 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#99 Elephant Alpha none Openrouter 1 6.6 2/4 963ms
#35 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#111 Grok 4.1 Fast none X AI 1 3.2 0/4 1.07s
#65 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#20 Gemini 3.1 Flash Lite Preview medium Google 1 9.1 3/4 2.33s
#101 Qwen3 Coder Next none Qwen 1 3.6 0/4 3.31s
#44 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#98 gpt-oss-120b none OpenAI 1 6.6 2/4 6.03s
#48 GPT-5.2 medium OpenAI 1 6.5 2/4 7.81s
#107 Qwen3 Coder Next medium Qwen 1 3.5 0/4 8.64s
#79 gpt-oss-120b medium OpenAI 1 6.7 2/4 10.2s
#38 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s
#108 HY3 Preview none Tencent 2 4.8 1/4 11.1s
#42 Kimi K2.6 medium Moonshot AI 1 7.0 2/4 11.6s
#53 GPT-5 Mini medium OpenAI 1 7.1 2/4 13.9s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल