निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Grok 4.20 Multi Agent Beta 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#62	MiMo-V2-Flash medium	Xiaomi	1	7.1	$0.043	12/21	20.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 20.1s
#124	GPT-5.4 Mini none	OpenAI	3	5.3	$0.038	5/21	1.13s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.038 प्रतिक्रिया समय (औसत) 1.13s
#165	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/21	82.2s
कुल टेस्ट 21 गलत टेस्ट 18 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 82.2s
#58	DeepSeek V4 Pro none	DeepSeek	2	7.2	$0.034	10/21	6.41s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 6.41s
#72	Ring-2.6-1T medium	Inclusionai	2	6.8	$0.033	11/21	61.3s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 61.3s
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.5	$0.032	7/21	4.39s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 4.39s
#128	Qwen3.6 35B A3B none	Qwen	2	5.2	$0.031	4/21	3.73s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.031 प्रतिक्रिया समय (औसत) 3.73s
#120	Qwen3.6 27B none	Qwen	2	5.5	$0.028	7/21	3.72s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.028 प्रतिक्रिया समय (औसत) 3.72s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	6.1	$0.027	8/21	2.27s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 2.27s
#23	DeepSeek V4 Flash high	DeepSeek	2	8.3	$0.027	13/21	45.8s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 45.8s
#144	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/21	55.1s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 55.1s
#82	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.026	13/21	2.77s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 2.77s
#159	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	4/21	2.76s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.76s
#60	Qwen3.7 Plus none	Qwen	1	7.2	$0.023	10/21	2.85s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 2.85s
#54	Hy3 preview medium	Tencent	1	7.3	$0.021	14/21	16.3s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 16.3s

←

1 4 5 6 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल