AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 2
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#100 GPT-5.4 Mini none OpenAI 3 5.1 5/18 1.17s
#99 Elephant Alpha none Openrouter 3 5.2 5/18 1.23s
#98 gpt-oss-120b none OpenAI 5 5.2 4/18 12.0s
#97 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#96 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#95 Elephant Alpha medium Openrouter 3 5.2 5/18 1.27s
#94 MiniMax M2.7 medium Minimax 6 5.3 4/18 31.1s
#93 Grok 4.20 Beta none X AI 3 5.3 4/18 1.19s
#92 DeepSeek V4 Flash none DeepSeek 2 5.3 5/18 29.4s
#91 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#90 Ling 2.6 Flash none Inclusionai 3 5.4 6/18 11.3s
#89 GLM 5 Turbo none Z.ai 2 5.5 6/18 2.94s
#86 GLM 4.7 Flash none Z.ai 2 5.6 5/18 3.35s
#87 GLM 5.1 none Z.ai 2 5.6 5/18 4.33s
#85 Mistral Small 4 medium Mistral 3 5.7 5/18 5.64s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल