एंटी-एआई ट्रिक्स x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Kimi K2.6 1

विफलता के कारण

गलत उत्तर250 निर्देशों का पालन नहीं किया30 अतिरिक्त फॉर्मेटिंग18 API त्रुटि12 समय समाप्त4 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान82 Samanya Buddhimatta72 एंटी-एआई ट्रिक्स30 कोडिंग16 निर्देश पालन12 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

29/29

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 11.6s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 7.81s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 10.8s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 3.86s
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 9.65s
#146	MiniMax M2.5 medium	Minimax	1	7.9	$0.303	2/4	20.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 20.8s
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 13.9s
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 14.9s
#127	MiniMax M2.7 medium	Minimax	1	7.9	$0.104	2/4	40.3s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.104 प्रतिक्रिया समय (औसत) 40.3s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 2.39s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.33s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 1.12s
#157	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.054	1/4	15.0s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 15.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 4.02s
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 43.3s

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल