निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 4

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#153	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.27s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 9.88s
#194	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 39.9s
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.19s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.70s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 4.76s
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 6.04s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 13.6s
#135	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 3.87s
#138	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.65s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 52.0s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 8.42s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 7.64s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
कुल टेस्ट 19 गलत टेस्ट 12 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 28.7s
#151	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 2.99s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल