एंटी-एआई ट्रिक्स x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

DeepSeek V4 Pro 1

विफलता के कारण

गलत उत्तर250 निर्देशों का पालन नहीं किया30 अतिरिक्त फॉर्मेटिंग18 API त्रुटि12 समय समाप्त4 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान82 Samanya Buddhimatta72 एंटी-एआई ट्रिक्स30 कोडिंग16 निर्देश पालन12 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

29/29

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 4.02s
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.78s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.63s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.017	0/4	2.67s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 2.67s
#130	Qwen3 Coder Next none	Qwen	1	3.6	$0.009	0/4	3.31s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 3.31s
#148	Qwen3 Coder Next medium	Qwen	1	3.5	$0.008	0/4	8.64s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.64s
#161	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.07s
#162	Laguna Xs.2 none	Poolside	1	3.0	$0.000	0/4	534ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 534ms
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 14.9s
#157	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.054	1/4	15.0s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 15.0s
#158	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 11.1s
#163	Granite 4.1 8B none	IBM Granite	1	4.9	$0.003	1/4	844ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 844ms
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 13.9s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 7.81s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 11.6s

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल