निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 5.97s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 10.7s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 55.1s
#186	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.57s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.3s
#200	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 142.6s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.27s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.70s
#206	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.76s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
कुल टेस्ट 19 गलत टेस्ट 12 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 28.7s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
कुल टेस्ट 19 गलत टेस्ट 13 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 21.6s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
कुल टेस्ट 19 गलत टेस्ट 17 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 728ms
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 22.6s
#29	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 27.6s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल