निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 4

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 12.9s
#160	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 4.12s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 3.50s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 18.3s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 9.15s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 10.7s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.82s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.27s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
कुल टेस्ट 19 गलत टेस्ट 13 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 21.6s
#130	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 3.74s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.7s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 19.6s
#145	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 2.07s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 10.7s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 10.1s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल