निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 1

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 9.69s
#135	Qwen3.5-9B none	Qwen	2	5.1	$0.006	4/21	1.89s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 1.89s
#134	MiMo-V2.5 none	Xiaomi	1	5.1	$0.007	5/21	2.20s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 2.20s
#133	Mistral Small 4 medium	Mistral	2	5.1	$0.068	5/21	9.40s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 9.40s
#132	Hunter Alpha medium	OpenRouter	2	5.1	$0.000	8/18	10.3s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.3s
#131	North Mini Code none	Cohere	2	5.1	$0.000	4/21	29.8s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 29.8s
#130	Qwen3 Coder Next none	Qwen	1	5.1	$0.009	5/21	8.62s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 8.62s
#129	Mistral Small 4 none	Mistral	1	5.1	$0.007	5/21	630ms
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 630ms
#128	Qwen3.6 35B A3B none	Qwen	2	5.2	$0.031	4/21	3.73s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.031 प्रतिक्रिया समय (औसत) 3.73s
#127	MiniMax M2.7 medium	Minimax	5	5.2	$0.104	5/21	38.2s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.104 प्रतिक्रिया समय (औसत) 38.2s
#126	DeepSeek V3.2 none	DeepSeek	1	5.3	$0.017	6/21	13.8s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 13.8s
#125	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.020	6/21	3.41s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 3.41s
#124	GPT-5.4 Mini none	OpenAI	3	5.3	$0.038	5/21	1.13s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.038 प्रतिक्रिया समय (औसत) 1.13s
#123	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	6/21	2.82s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.82s
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.5	$0.032	7/21	4.39s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 4.39s

←

1 2 3 4 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल