निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Nemotron 3 Nano Omni 30b A3b Reasoning 2

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 36.8s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
कुल टेस्ट 12 गलत टेस्ट 6 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 39.0s
#194	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 39.9s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 41.2s
#178	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 41.3s
#41	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 43.1s
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 44.7s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 47.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 48.5s
#49	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.041	13/22	49.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 49.7s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 52.0s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 55.1s
#94	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 58.1s
#149	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
कुल टेस्ट 18 गलत टेस्ट 8 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 62.0s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल