निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Nemotron 3 Nano Omni 30b A3b Reasoning 2

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 7.64s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 7.65s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 8.12s
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
कुल टेस्ट 22 गलत टेस्ट 3 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 8.20s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 8.42s
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 8.58s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 9.12s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 9.15s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.1	$0.584	14/22	9.48s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 9.48s
#193	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 9.61s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 9.69s
#137	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
कुल टेस्ट 18 गलत टेस्ट 4 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 9.75s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 9.88s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 10.1s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल