निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#152	Elephant Alpha none	Openrouter	3	4.6	$0.000	5/21	1.22s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.22s
#153	Elephant Alpha medium	Openrouter	2	4.5	$0.000	6/21	1.27s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.27s
#154	Hunter Alpha none	OpenRouter	2	4.5	$0.000	6/18	4.70s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.70s
#157	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.054	4/21	35.1s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 35.1s
#158	Hy3 preview none	Tencent	4	4.3	$0.003	4/21	12.9s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 12.9s
#159	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	4/21	2.76s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.76s
#160	Grok Build 0.1 none	X AI	2	4.2	$0.547	7/19	28.7s
कुल टेस्ट 19 गलत टेस्ट 12 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 28.7s
#161	Grok 4.1 Fast none	X AI	3	4.0	$0.008	3/19	1.62s
कुल टेस्ट 19 गलत टेस्ट 16 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.62s
#162	Laguna Xs.2 none	Poolside	1	4.0	$0.000	5/19	806ms
कुल टेस्ट 19 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 806ms
#163	Granite 4.1 8B none	IBM Granite	4	4.0	$0.003	2/21	728ms
कुल टेस्ट 21 गलत टेस्ट 19 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 728ms
#164	gpt-oss-120b none	OpenAI	2	4.0	$0.010	6/19	21.6s
कुल टेस्ट 19 गलत टेस्ट 13 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 21.6s
#165	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/21	82.2s
कुल टेस्ट 21 गलत टेस्ट 18 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 82.2s
#166	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.6	$0.000	4/19	17.1s
कुल टेस्ट 19 गलत टेस्ट 15 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 17.1s
#167	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.5	$0.000	2/19	728ms
कुल टेस्ट 19 गलत टेस्ट 17 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 728ms
#168	Step 3.5 Flash none	Stepfun	1	2.6	$0.020	6/12	39.0s
कुल टेस्ट 12 गलत टेस्ट 6 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 39.0s

←

1 7 8 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल