निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Grok 4.20 Multi Agent Beta 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#47	Qwen3.6 Flash medium	Qwen	1	7.5	$0.288	12/21	19.2s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 19.2s
#15	GLM 5 medium	Z.ai	1	8.6	$0.228	15/21	33.5s
कुल टेस्ट 21 गलत टेस्ट 6 कुल लागत $0.228 प्रतिक्रिया समय (औसत) 33.5s
#18	Seed-2.0-Lite medium	Bytedance Seed	2	8.5	$0.175	14/21	47.1s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.175 प्रतिक्रिया समय (औसत) 47.1s
#16	GPT-5 Mini medium	OpenAI	3	8.5	$0.159	12/21	23.6s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 23.6s
#41	DeepSeek V4 Pro high	DeepSeek	2	7.6	$0.157	9/21	77.2s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.157 प्रतिक्रिया समय (औसत) 77.2s
#75	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.146	13/21	18.1s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.146 प्रतिक्रिया समय (औसत) 18.1s
#40	MiniMax M3 medium	Minimax	2	7.6	$0.131	11/21	68.2s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 68.2s
#112	GPT-5.4 none	OpenAI	1	5.8	$0.122	7/21	1.42s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.42s
#71	Gemini 3.5 Flash minimal	Google	1	6.8	$0.108	14/21	1.57s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 1.57s
#46	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.107	11/21	12.0s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 12.0s
#51	MiMo-V2.5-Pro medium	Xiaomi	2	7.4	$0.106	12/21	26.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 26.1s
#127	MiniMax M2.7 medium	Minimax	5	5.2	$0.104	5/21	38.2s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.104 प्रतिक्रिया समय (औसत) 38.2s
#149	Grok 4.20 Beta none	X AI	1	4.7	$0.087	6/18	1.19s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.19s
#79	GPT-5 Nano medium	OpenAI	2	6.7	$0.081	9/21	42.5s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.081 प्रतिक्रिया समय (औसत) 42.5s
#70	Qwen3.5-Flash medium	Qwen	1	6.8	$0.080	12/21	63.3s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.080 प्रतिक्रिया समय (औसत) 63.3s

←

1 2 3 4 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल