AI BENCHY
Your ad here

AI BENCHY विफलताएँ

निर्देशों का पालन नहीं किया विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

180

सबसे अधिक प्रभावित मॉडल

Mercury 2 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#91 Mercury 2 none Inception 1 4.8 4/18 613ms
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#62 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#86 GPT-5.4 Mini none OpenAI 3 5.1 5/18 1.17s
#79 Grok 4.20 Beta none X AI 3 5.3 4/18 1.19s
#85 Elephant none Openrouter 3 5.2 5/18 1.23s
#81 Elephant medium Openrouter 3 5.2 5/18 1.27s
#29 Gemini 3.1 Flash Lite Preview none Google 2 7.9 12/18 1.30s
#96 GPT-5.4 Nano none OpenAI 3 4.5 2/18 1.40s
#90 Qwen3.5-9B none Qwen 3 4.8 4/18 1.47s
#66 GPT-5.4 none OpenAI 1 5.9 7/18 1.51s
#67 Qwen3.5-27B none Qwen 2 5.9 6/18 1.74s
#95 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल