निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Grok 4.20 Multi Agent Beta 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#57	Claude Opus 4.8 none	Anthropic	1	7.2	$0.539	12/21	3.47s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.47s
#29	Qwen3.5-27B medium	Qwen	2	7.9	$0.536	13/21	68.4s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.536 प्रतिक्रिया समय (औसत) 68.4s
#27	GPT-5.4 Mini medium	OpenAI	3	8.0	$0.526	12/21	22.3s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.526 प्रतिक्रिया समय (औसत) 22.3s
#56	GLM 5V Turbo medium	Z.ai	1	7.3	$0.457	11/21	23.1s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 23.1s
#81	Qwen3.6 27B medium	Qwen	1	6.6	$0.440	10/21	59.7s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.440 प्रतिक्रिया समय (औसत) 59.7s
#45	GPT-5.3 Chat none	OpenAI	2	7.5	$0.433	12/21	6.34s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 6.34s
#19	GPT-5.2 Chat none	OpenAI	1	8.5	$0.393	14/21	7.13s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.393 प्रतिक्रिया समय (औसत) 7.13s
#24	Gemini 2.5 Flash medium	Google	1	8.2	$0.379	14/21	15.5s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.379 प्रतिक्रिया समय (औसत) 15.5s
#20	Step 3.7 Flash medium	Stepfun	1	8.5	$0.376	14/21	20.4s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 20.4s
#43	Kimi K2.5 medium	Moonshot AI	2	7.5	$0.348	10/21	98.4s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.348 प्रतिक्रिया समय (औसत) 98.4s
#77	Mimo V2 PRO medium	Xiaomi	1	6.7	$0.333	12/21	22.2s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 22.2s
#21	GLM 5 Turbo medium	Z.ai	1	8.4	$0.323	14/21	23.0s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 23.0s
#55	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.316	11/21	5.04s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.316 प्रतिक्रिया समय (औसत) 5.04s
#146	MiniMax M2.5 medium	Minimax	3	4.7	$0.303	5/21	65.4s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 65.4s
#30	Qwen3.6 Plus medium	Qwen	1	7.8	$0.294	14/21	30.7s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.294 प्रतिक्रिया समय (औसत) 30.7s

←

1 2 3 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल