निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Owl Alpha 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#164	gpt-oss-120b none	OpenAI	2	4.0	$0.010	6/19	21.6s
कुल टेस्ट 19 गलत टेस्ट 13 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 21.6s
#145	GPT-5.4 Nano none	OpenAI	2	4.8	$0.011	4/21	1.48s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 1.48s
#151	Mercury 2 none	Inception	1	4.6	$0.011	4/21	653ms
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 653ms
#103	Qwen3.5-35B-A3B none	Qwen	2	5.9	$0.012	7/21	3.37s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.012 प्रतिक्रिया समय (औसत) 3.37s
#78	gpt-oss-120b medium	OpenAI	3	6.7	$0.013	9/21	22.3s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 22.3s
#96	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.013	9/21	1.06s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 1.06s
#94	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.013	10/21	1.33s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 1.33s
#102	Qwen3.6 Flash none	Qwen	1	6.0	$0.015	7/21	1.60s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.60s
#104	Qwen3.5-27B none	Qwen	2	5.9	$0.015	7/21	1.68s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.68s
#119	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.017	6/21	1.78s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 1.78s
#126	DeepSeek V3.2 none	DeepSeek	1	5.3	$0.017	6/21	13.8s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 13.8s
#84	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.018	12/21	1.21s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 1.21s
#125	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.020	6/21	3.41s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 3.41s
#168	Step 3.5 Flash none	Stepfun	1	2.6	$0.020	6/12	39.0s
कुल टेस्ट 12 गलत टेस्ट 6 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 39.0s
#87	Nemotron 3 Super medium	NVIDIA	3	6.3	$0.021	8/21	32.0s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 32.0s

←

1 2 3 4 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल