निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Step 3.5 Flash 3

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#33	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 26.4s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 25.9s
#19	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 25.0s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 24.0s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
कुल टेस्ट 19 गलत टेस्ट 10 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 23.8s
#21	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 23.1s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 23.1s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 23.0s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 22.6s
#115	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 22.2s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 21.9s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
कुल टेस्ट 19 गलत टेस्ट 13 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 21.6s
#28	Gemini 2.5 Flash medium	Google	1	8.2	$0.643	15/22	21.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 21.2s
#119	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 20.1s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 19.6s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल