निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

140/140

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 4.91s
#71	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.1s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 68.6s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 92.5s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 24.0s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 2.16s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 44.7s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 2.65s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 58.1s
#91	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 100.3s
#93	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 23.1s
#96	GLM 5.2 none	Z.ai	1	6.6	$0.151	12/22	9.34s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.151 प्रतिक्रिया समय (औसत) 9.34s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 106.3s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 16.3s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल