निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

Step 3.5 Flash 3

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

140/140

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 68.6s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
कुल टेस्ट 16 गलत टेस्ट 3 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 68.1s
#28	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 64.2s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.970 प्रतिक्रिया समय (औसत) 62.7s
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
कुल टेस्ट 18 गलत टेस्ट 8 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 62.0s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 58.1s
#179	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 55.1s
#128	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 54.9s
#140	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.050	8/22	52.0s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.050 प्रतिक्रिया समय (औसत) 52.0s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 49.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 48.5s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 47.4s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 44.7s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल