निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Owl Alpha 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#163	Granite 4.1 8B none	IBM Granite	4	4.0	$0.003	2/21	728ms
कुल टेस्ट 21 गलत टेस्ट 19 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 728ms
#98	Gemma 4 31B none	Google	1	6.1	$0.004	10/21	4.05s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 4.05s
#121	Gemma 4 26B A4B none	Google	2	5.5	$0.004	8/21	5.91s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 5.91s
#141	GLM 4.7 Flash none	Z.ai	1	4.9	$0.004	6/21	2.86s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 2.86s
#147	Ling-2.6-1T none	Inclusionai	2	4.7	$0.005	3/21	7.72s
कुल टेस्ट 21 गलत टेस्ट 18 कुल लागत $0.005 प्रतिक्रिया समय (औसत) 7.72s
#135	Qwen3.5-9B none	Qwen	2	5.1	$0.006	4/21	1.89s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 1.89s
#139	GPT-4o-mini none	OpenAI	1	5.0	$0.006	5/21	1.77s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 1.77s
#142	Nemotron 3 Super none	NVIDIA	2	4.9	$0.007	5/21	5.30s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 5.30s
#134	MiMo-V2.5 none	Xiaomi	1	5.1	$0.007	5/21	2.20s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 2.20s
#129	Mistral Small 4 none	Mistral	1	5.1	$0.007	5/21	630ms
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 630ms
#117	DeepSeek V4 Flash none	DeepSeek	1	5.5	$0.007	5/21	26.8s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 26.8s
#161	Grok 4.1 Fast none	X AI	3	4.0	$0.008	3/19	1.62s
कुल टेस्ट 19 गलत टेस्ट 16 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.62s
#137	Trinity Large Preview none	Arcee AI	3	5.0	$0.008	4/21	2.98s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 2.98s
#148	Qwen3 Coder Next medium	Qwen	3	4.7	$0.008	4/21	8.58s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.58s
#130	Qwen3 Coder Next none	Qwen	1	5.1	$0.009	5/21	8.62s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 8.62s

←

1 2 3 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल