निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 4

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.9s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.44s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 148.7s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 1.75s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 55.1s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.3s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 99.0s
#82	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 11.6s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 100.3s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 106.3s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल