निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Grok 4.20 Multi Agent Beta 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#163	Granite 4.1 8B none	IBM Granite	4	4.0	$0.003	2/21	728ms
कुल टेस्ट 21 गलत टेस्ट 19 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 728ms
#158	Hy3 preview none	Tencent	4	4.3	$0.003	4/21	12.9s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 12.9s
#143	Ling-2.6-flash none	Inclusionai	2	4.9	$0.001	6/21	9.34s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 9.34s
#169	LFM2-24B-A2B none	Liquid	1	2.4	$0.001	2/16	782ms
कुल टेस्ट 16 गलत टेस्ट 14 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 782ms
#108	Owl Alpha medium	Openrouter	2	5.8	$0.000	8/21	11.9s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.9s
#110	Owl Alpha none	Openrouter	3	5.8	$0.000	7/21	9.88s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 9.88s
#131	North Mini Code none	Cohere	2	5.1	$0.000	4/21	29.8s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 29.8s
#132	Hunter Alpha medium	OpenRouter	2	5.1	$0.000	8/18	10.3s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.3s
#138	Laguna M.1 medium	Poolside	1	5.0	$0.000	9/19	14.7s
कुल टेस्ट 19 गलत टेस्ट 10 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 14.7s
#140	Cobuddy medium	Baidu	3	4.9	$0.000	7/21	39.9s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 39.9s
#152	Elephant Alpha none	Openrouter	3	4.6	$0.000	5/21	1.22s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.22s
#153	Elephant Alpha medium	Openrouter	2	4.5	$0.000	6/21	1.27s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.27s
#154	Hunter Alpha none	OpenRouter	2	4.5	$0.000	6/18	4.70s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.70s
#162	Laguna Xs.2 none	Poolside	1	4.0	$0.000	5/19	806ms
कुल टेस्ट 19 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 806ms
#166	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.6	$0.000	4/19	17.1s
कुल टेस्ट 19 गलत टेस्ट 15 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 17.1s

←

1 7 8 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल