निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

MiniMax M2.7 5

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
कुल टेस्ट 19 गलत टेस्ट 17 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 728ms
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
कुल टेस्ट 22 गलत टेस्ट 3 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 8.20s
#15	Grok 4.5 high	X AI	1	8.9	$1.707	17/22	76.5s
कुल टेस्ट 22 गलत टेस्ट 5 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 76.5s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 12.5s
#28	Gemini 2.5 Flash medium	Google	1	8.2	$0.643	15/22	21.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.1	$0.584	14/22	9.48s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 9.48s
#32	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 64.2s
#33	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 26.4s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 7.65s
#35	GLM 5.2 high	Z.ai	1	8.0	$0.817	14/22	62.7s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 62.7s
#41	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 43.1s
#46	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
कुल टेस्ट 21 गलत टेस्ट 6 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 33.5s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 34.3s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 23.0s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 84.2s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल