निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 44.7s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 9.34s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 32.2s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.58s
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 84.8s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 23.1s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 174.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 68.7s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
कुल टेस्ट 12 गलत टेस्ट 6 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 39.0s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 41.2s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल