AI BENCHY
तुलना करें चार्ट Karyapranali
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी विफलताएँ

एंटी-एआई ट्रिक्स
निर्देशों का पालन नहीं किया

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

12

कुल विफलताएँ

12

सबसे अधिक प्रभावित मॉडल

Gemini 3.1 Flash Lite Preview 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#22 Gemini 3.1 Flash Lite Preview none Google 1 6.0 1/3 1.16s
#36 Mercury 2 medium Inception 1 7.3 2/3 1.30s
#53 Grok 4.1 Fast none X AI 1 1.3 0/3 1.73s
#12 Gemini 3.1 Flash Lite Preview medium Google 1 9.0 2/3 2.53s
#48 Qwen3 Coder Next none Qwen 1 2.3 0/3 4.39s
#19 GPT-5.3 Chat none OpenAI 1 7.3 2/3 4.72s
#27 GPT-5.2 medium OpenAI 1 7.0 2/3 14.3s
#50 Qwen3 Coder Next medium Qwen 1 1.3 0/3 15.3s
#32 GPT-5 Mini medium OpenAI 1 7.0 2/3 16.5s
#39 gpt-oss-120b medium OpenAI 1 7.0 2/3 19.8s
#52 GLM 4.7 Flash medium Z.ai 1 4.0 1/3 27.1s
#43 MiniMax M2.5 medium Minimax 1 9.3 2/3 32.4s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम औसत स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल