निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Grok 4.20 Multi Agent Beta 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#111	Kimi K2.6 none	Moonshot AI	3	5.8	$0.079	7/21	13.3s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.079 प्रतिक्रिया समय (औसत) 13.3s
#61	GLM 5.2 none	Z.ai	1	7.1	$0.076	12/21	6.34s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.076 प्रतिक्रिया समय (औसत) 6.34s
#34	Gemini 3.1 Flash Lite medium	Google	1	7.8	$0.071	13/21	3.23s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 3.23s
#80	Step 3.5 Flash medium	Stepfun	3	6.6	$0.070	11/20	72.5s
कुल टेस्ट 20 गलत टेस्ट 9 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 72.5s
#115	Grok 4.1 Fast medium	X AI	4	5.6	$0.069	9/19	23.8s
कुल टेस्ट 19 गलत टेस्ट 10 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 23.8s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	7.8	$0.068	13/21	3.96s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.96s
#133	Mistral Small 4 medium	Mistral	2	5.1	$0.068	5/21	9.40s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 9.40s
#76	MiMo-V2.5 medium	Xiaomi	1	6.7	$0.063	12/21	27.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.063 प्रतिक्रिया समय (औसत) 27.1s
#44	Mercury 2 medium	Inception	3	7.5	$0.058	10/21	2.24s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 2.24s
#157	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.054	4/21	35.1s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 35.1s
#105	GLM 5V Turbo none	Z.ai	2	5.9	$0.052	8/21	2.99s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 2.99s
#123	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	6/21	2.82s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.82s
#109	Mimo V2 PRO none	Xiaomi	2	5.8	$0.045	7/21	2.27s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.27s
#48	DeepSeek V3.2 medium	DeepSeek	1	7.5	$0.044	11/21	68.7s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 68.7s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	7.4	$0.044	11/21	80.2s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 80.2s

←

1 3 4 5 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल