निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#53	Grok 4.20 medium	X AI	2	7.3	$0.609	12/21	27.7s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 27.7s
#54	Hy3 preview medium	Tencent	1	7.3	$0.021	14/21	16.3s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 16.3s
#55	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.316	11/21	5.04s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.316 प्रतिक्रिया समय (औसत) 5.04s
#56	GLM 5V Turbo medium	Z.ai	1	7.3	$0.457	11/21	23.1s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 23.1s
#57	Claude Opus 4.8 none	Anthropic	1	7.2	$0.539	12/21	3.47s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.47s
#58	DeepSeek V4 Pro none	DeepSeek	2	7.2	$0.034	10/21	6.41s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 6.41s
#60	Qwen3.7 Plus none	Qwen	1	7.2	$0.023	10/21	2.85s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 2.85s
#61	GLM 5.2 none	Z.ai	1	7.1	$0.076	12/21	6.34s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.076 प्रतिक्रिया समय (औसत) 6.34s
#62	MiMo-V2-Flash medium	Xiaomi	1	7.1	$0.043	12/21	20.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 20.1s
#65	Kimi K2.7 Code medium	Moonshot AI	1	7.0	$0.583	11/21	83.6s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.583 प्रतिक्रिया समय (औसत) 83.6s
#69	Grok 4.20 Beta medium	X AI	1	6.8	$0.750	14/18	9.75s
कुल टेस्ट 18 गलत टेस्ट 4 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 9.75s
#70	Qwen3.5-Flash medium	Qwen	1	6.8	$0.080	12/21	63.3s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.080 प्रतिक्रिया समय (औसत) 63.3s
#71	Gemini 3.5 Flash minimal	Google	1	6.8	$0.108	14/21	1.57s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 1.57s
#72	Ring-2.6-1T medium	Inclusionai	2	6.8	$0.033	11/21	61.3s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 61.3s
#73	Mimo V2 Omni medium	Xiaomi	2	6.8	$0.683	10/21	41.2s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 41.2s

←

1 2 3 4 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल