एंटी-एआई ट्रिक्स x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

GPT-5 Mini 1

विफलता के कारण

गलत उत्तर250 निर्देशों का पालन नहीं किया30 अतिरिक्त फॉर्मेटिंग18 API त्रुटि12 समय समाप्त4 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान82 Samanya Buddhimatta72 एंटी-एआई ट्रिक्स30 कोडिंग16 निर्देश पालन12 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

29/29

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 13.9s
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 9.65s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 7.81s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.33s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 2.39s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 11.6s
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 14.9s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 1.12s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 3.86s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 10.8s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 4.02s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 10.2s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 1.04s
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.78s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.63s

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल