निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Nemotron 3 Nano Omni 30b A3b Reasoning 2

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.3s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 10.7s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 10.7s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 10.8s
#27	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 11.5s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 11.6s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.9s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.1s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 12.5s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.7s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 12.9s
#205	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 12.9s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 13.2s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 13.6s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
कुल टेस्ट 19 गलत टेस्ट 10 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 14.7s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल