निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

MiniMax M2.7 5

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

140/140

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#46	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 79.1s
#47	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 75.0s
#53	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 13.2s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 6.88s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 110.0s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 47.4s
#75	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 29.5s
#77	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 99.0s
#82	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 11.6s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 33.9s
#97	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 148.7s
#103	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 4.76s
#106	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.58s
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 68.7s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल