निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 4

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

140/140

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#201	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
कुल टेस्ट 22 गलत टेस्ट 20 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 1.45s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
कुल टेस्ट 19 गलत टेस्ट 17 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 728ms
#210	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
कुल टेस्ट 16 गलत टेस्ट 14 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 782ms
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
कुल टेस्ट 22 गलत टेस्ट 19 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 82.2s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
कुल टेस्ट 19 गलत टेस्ट 16 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.62s
#161	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 5.52s
#162	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 8.58s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 19.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 29.9s
#180	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.57s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 9.61s
#189	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 829ms
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 142.6s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 2.98s
#199	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 12.9s

1 2 10

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल