निर्देशों का पालन नहीं किया विफलता रैंकिंग | AI BENCHY

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

215

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

पहेली समाधान श्रेणी में98 Samanya Buddhimatta श्रेणी में65 निर्देश पालन श्रेणी में23 एंटी-एआई ट्रिक्स श्रेणी में19 टूल कॉलिंग श्रेणी में6 कोडिंग श्रेणी में3 संयुक्त श्रेणी में1

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#5	GPT-5.5 low	OpenAI	1	9.0	15/18	8.39s
#6	GPT-5.5 medium	OpenAI	1	9.0	15/18	32.8s
#8	Seed-2.0-Lite medium	Bytedance Seed	2	8.6	13/18	30.4s
#9	GPT-5.3-Codex medium	OpenAI	2	8.6	13/18	15.4s
#11	HY3 Preview high	Tencent	2	8.5	13/18	55.2s
#12	Qwen3.6 Plus Preview medium	Qwen	1	8.5	13/17	13.9s
#13	Qwen3.5-27B medium	Qwen	2	8.4	13/18	53.0s
#14	Gemini 3.1 Flash Lite Preview high	Google	1	8.4	12/16	68.8s
#16	GLM 5 medium	Z.ai	1	8.4	13/18	23.3s
#17	Gemma 4 31B medium	Google	1	8.3	13/18	24.9s
#18	Gemini 2.5 Flash medium	Google	1	8.2	13/18	12.1s
#19	GPT-5.4 medium	OpenAI	2	8.2	13/18	18.6s
#20	Gemini 3.1 Flash Lite Preview medium	Google	1	8.2	13/18	3.74s
#21	GLM 5 Turbo medium	Z.ai	2	8.1	12/18	17.7s
#23	Qwen3.6 Plus medium	Qwen	1	8.1	13/18	15.3s

1 2 3 4 5 6 7

→

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल