कोडिंग x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

विफलता के कारण

गलत उत्तर120 कोई उत्तर नहीं18 निर्देशों का पालन नहीं किया16 समय समाप्त12 अतिरिक्त फॉर्मेटिंग7 API त्रुटि6

श्रेणियाँ

पहेली समाधान84 Samanya Buddhimatta74 एंटी-एआई ट्रिक्स29 कोडिंग16 निर्देश पालन14 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#6	Gemini 3.5 Flash medium	Google	1	6.8	1/2	9.91s
#24	Gemini 3.5 Flash minimal	Google	1	7.0	1/2	3.39s
#63	Claude Opus 4.6 medium	Anthropic	1	7.2	1/2	29.4s
#74	Laguna M.1 medium	Poolside	1	4.3	0/1	35.6s
#80	DeepSeek V4 Pro high	DeepSeek	1	2.8	0/2	51.8s
#87	Grok 4.1 Fast medium	X AI	1	2.3	0/1	23.6s
#96	Nemotron 3 Super medium	NVIDIA	1	3.1	0/2	62.4s
#100	Owl Alpha medium	Openrouter	1	6.6	1/2	19.1s
#101	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.4	0/2	2.08s
#105	Cobuddy medium	Baidu	1	4.1	0/2	79.2s
#110	Kimi K2.6 none	Moonshot AI	1	6.8	1/2	122.8s
#114	DeepSeek V3.2 none	DeepSeek	1	3.1	0/2	20.9s
#115	MiMo-V2.5-Pro none	Xiaomi	1	5.0	0/2	1.80s
#149	MiMo-V2-Flash none	Xiaomi	1	4.9	0/2	2.04s
#151	Qwen3.5-9B medium	Qwen	1	2.8	0/2	135.6s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

कोडिंग: निर्देशों का पालन नहीं किया

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल