निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 1

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#53	Grok 4.20 medium	X AI	2	7.3	$0.609	12/21	27.7s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 27.7s
#51	MiMo-V2.5-Pro medium	Xiaomi	2	7.4	$0.106	12/21	26.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 26.1s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	7.4	$0.044	11/21	80.2s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 80.2s
#48	DeepSeek V3.2 medium	DeepSeek	1	7.5	$0.044	11/21	68.7s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 68.7s
#47	Qwen3.6 Flash medium	Qwen	1	7.5	$0.288	12/21	19.2s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 19.2s
#46	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.107	11/21	12.0s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 12.0s
#45	GPT-5.3 Chat none	OpenAI	2	7.5	$0.433	12/21	6.34s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 6.34s
#44	Mercury 2 medium	Inception	3	7.5	$0.058	10/21	2.24s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 2.24s
#43	Kimi K2.5 medium	Moonshot AI	2	7.5	$0.348	10/21	98.4s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.348 प्रतिक्रिया समय (औसत) 98.4s
#41	DeepSeek V4 Pro high	DeepSeek	2	7.6	$0.157	9/21	77.2s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.157 प्रतिक्रिया समय (औसत) 77.2s
#40	MiniMax M3 medium	Minimax	2	7.6	$0.131	11/21	68.2s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 68.2s
#38	Claude Opus 4.6 medium	Anthropic	1	7.7	$2.053	12/21	25.9s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 25.9s
#37	Grok 4.3 medium	X AI	2	7.7	$0.614	13/21	47.5s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 47.5s
#35	Kimi K2.6 medium	Moonshot AI	2	7.8	$0.889	12/21	71.7s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 71.7s
#34	Gemini 3.1 Flash Lite medium	Google	1	7.8	$0.071	13/21	3.23s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 3.23s

←

1 6 7 8 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल