एंटी-एआई ट्रिक्स x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Laguna Xs.2 1

विफलता के कारण

गलत उत्तर250 निर्देशों का पालन नहीं किया30 अतिरिक्त फॉर्मेटिंग18 API त्रुटि12 समय समाप्त4 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान82 Samanya Buddhimatta72 एंटी-एआई ट्रिक्स30 कोडिंग16 निर्देश पालन12 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

29/29

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#162	Laguna Xs.2 none	Poolside	1	3.0	$0.000	0/4	534ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 534ms
#163	Granite 4.1 8B none	IBM Granite	1	4.9	$0.003	1/4	844ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 844ms
#152	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 963ms
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 1.04s
#161	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.07s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 1.12s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.63s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.33s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 2.39s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.017	0/4	2.67s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 2.67s
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.78s
#130	Qwen3 Coder Next none	Qwen	1	3.6	$0.009	0/4	3.31s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 3.31s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 3.86s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 4.02s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 7.81s

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल