एंटी-एआई ट्रिक्स x निर्देशों का पालन नहीं किया रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: कुल लागत ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Owl Alpha 1

विफलता के कारण

गलत उत्तर250 निर्देशों का पालन नहीं किया30 अतिरिक्त फॉर्मेटिंग18 API त्रुटि12 समय समाप्त4 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान82 Samanya Buddhimatta72 एंटी-एआई ट्रिक्स30 कोडिंग16 निर्देश पालन12 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

29/29

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.78s
#152	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 963ms
#162	Laguna Xs.2 none	Poolside	1	3.0	$0.000	0/4	534ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 534ms
#143	Ling-2.6-flash none	Inclusionai	1	6.8	$0.001	2/4	11.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 11.8s
#158	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 11.1s
#163	Granite 4.1 8B none	IBM Granite	1	4.9	$0.003	1/4	844ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 844ms
#161	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.07s
#148	Qwen3 Coder Next medium	Qwen	1	3.5	$0.008	0/4	8.64s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.64s
#130	Qwen3 Coder Next none	Qwen	1	3.6	$0.009	0/4	3.31s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 3.31s
#164	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 32.8s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 10.2s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.017	0/4	2.67s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 2.67s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 1.04s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.63s
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 43.3s

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल