निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

140/140

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 26.4s
#30	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 7.65s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.970 प्रतिक्रिया समय (औसत) 62.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 48.5s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 2.65s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 11.5s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 34.3s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 49.7s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 6.88s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 111.9s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 4.61s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 4.91s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 47.4s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 58.1s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल