निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 6.88s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 111.9s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 110.0s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 47.4s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 29.5s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 99.0s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 11.6s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 33.9s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 148.7s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 4.76s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.58s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 68.7s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 5.15s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 13.6s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.7s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल