AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

GPT-5.5 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#94 MiniMax M2.7 medium Minimax 6 5.3 4/18 31.1s
#95 Elephant Alpha medium Openrouter 3 5.2 5/18 1.27s
#96 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#97 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#98 gpt-oss-120b none OpenAI 5 5.2 4/18 12.0s
#99 Elephant Alpha none Openrouter 3 5.2 5/18 1.23s
#100 GPT-5.4 Mini none OpenAI 3 5.1 5/18 1.17s
#101 Qwen3 Coder Next none Qwen 1 5.1 4/18 10.2s
#102 MiMo-V2.5 none Xiaomi 2 5.1 5/18 1.05s
#103 Nemotron 3 Super none NVIDIA 4 5.1 4/18 8.54s
#104 GPT-4o-mini none OpenAI 1 4.9 4/18 2.00s
#105 Qwen3.5-9B none Qwen 3 4.8 4/18 1.47s
#106 Mercury 2 none Inception 1 4.8 4/18 613ms
#107 Qwen3 Coder Next medium Qwen 5 4.7 3/18 10.8s
#108 HY3 Preview none Tencent 4 4.7 4/18 13.6s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल