एंटी-एआई ट्रिक्स x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Ring-2.6-1T 1

विफलता के कारण

गलत उत्तर250 निर्देशों का पालन नहीं किया30 अतिरिक्त फॉर्मेटिंग18 API त्रुटि12 समय समाप्त4 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान82 Samanya Buddhimatta72 एंटी-एआई ट्रिक्स30 कोडिंग16 निर्देश पालन12 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

29/29

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 43.3s
#127	MiniMax M2.7 medium	Minimax	1	7.9	$0.104	2/4	40.3s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.104 प्रतिक्रिया समय (औसत) 40.3s
#164	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 32.8s
#146	MiniMax M2.5 medium	Minimax	1	7.9	$0.303	2/4	20.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 20.8s
#157	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.054	1/4	15.0s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 15.0s
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 14.9s
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 13.9s
#143	Ling-2.6-flash none	Inclusionai	1	6.8	$0.001	2/4	11.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 11.8s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 11.6s
#158	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 11.1s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 10.8s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 10.2s
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 9.65s
#148	Qwen3 Coder Next medium	Qwen	1	3.5	$0.008	0/4	8.64s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.64s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 7.81s

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल