एंटी-एआई ट्रिक्स x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Step 3.7 Flash 1

विफलता के कारण

गलत उत्तर250 निर्देशों का पालन नहीं किया30 अतिरिक्त फॉर्मेटिंग18 API त्रुटि12 समय समाप्त4 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान82 Samanya Buddhimatta72 एंटी-एआई ट्रिक्स30 कोडिंग16 निर्देश पालन12 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

29/29

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 9.65s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.33s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 2.39s
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 43.3s
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 13.9s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 7.81s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 11.6s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 1.12s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 3.86s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 10.8s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 10.2s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 1.04s
#127	MiniMax M2.7 medium	Minimax	1	7.9	$0.104	2/4	40.3s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.104 प्रतिक्रिया समय (औसत) 40.3s
#143	Ling-2.6-flash none	Inclusionai	1	6.8	$0.001	2/4	11.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 11.8s
#146	MiniMax M2.5 medium	Minimax	1	7.9	$0.303	2/4	20.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 20.8s

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल