निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

242

सबसे अधिक प्रभावित मॉडल

MiniMax M2.7 5

श्रेणियाँ

पहेली समाधान श्रेणी में88 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में32 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

138/138

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#168	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 41.3s
#150	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 4.12s
#181	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
कुल टेस्ट 19 गलत टेस्ट 10 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 23.8s
#195	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 12.9s
#197	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
कुल टेस्ट 22 गलत टेस्ट 20 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 1.45s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 22.6s
#26	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 27.6s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 25.9s
#77	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 2.72s
#116	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 1.86s
#117	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 21.9s
#126	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 174.2s
#132	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 1.53s
#134	Kimi K2.6 none	Moonshot AI	3	5.8	$0.233	7/22	19.6s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.233 प्रतिक्रिया समय (औसत) 19.6s
#136	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.066	8/22	52.0s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 52.0s

1 2 10

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल