निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

MiniMax M2.7 5

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

140/140

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
कुल टेस्ट 18 गलत टेस्ट 8 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 62.0s
#148	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 9.88s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 2.98s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 9.61s
#188	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 39.9s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 68.3s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.22s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
कुल टेस्ट 19 गलत टेस्ट 16 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.62s
#13	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 17.0s
#16	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 25.0s
#18	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 23.1s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 11.5s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 31.5s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 48.5s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 49.7s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल