निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
कुल टेस्ट 18 गलत टेस्ट 10 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 9.69s
#137	Trinity Large Preview none	Arcee AI	3	5.0	$0.008	4/21	2.98s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 2.98s
#138	Laguna M.1 medium	Poolside	1	5.0	$0.000	9/19	14.7s
कुल टेस्ट 19 गलत टेस्ट 10 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 14.7s
#139	GPT-4o-mini none	OpenAI	1	5.0	$0.006	5/21	1.77s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 1.77s
#140	Cobuddy medium	Baidu	3	4.9	$0.000	7/21	39.9s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 39.9s
#141	GLM 4.7 Flash none	Z.ai	1	4.9	$0.004	6/21	2.86s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 2.86s
#142	Nemotron 3 Super none	NVIDIA	2	4.9	$0.007	5/21	5.30s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 5.30s
#143	Ling-2.6-flash none	Inclusionai	2	4.9	$0.001	6/21	9.34s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 9.34s
#144	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/21	55.1s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 55.1s
#145	GPT-5.4 Nano none	OpenAI	2	4.8	$0.011	4/21	1.48s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 1.48s
#146	MiniMax M2.5 medium	Minimax	3	4.7	$0.303	5/21	65.4s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 65.4s
#147	Ling-2.6-1T none	Inclusionai	2	4.7	$0.005	3/21	7.72s
कुल टेस्ट 21 गलत टेस्ट 18 कुल लागत $0.005 प्रतिक्रिया समय (औसत) 7.72s
#148	Qwen3 Coder Next medium	Qwen	3	4.7	$0.008	4/21	8.58s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.58s
#149	Grok 4.20 Beta none	X AI	1	4.7	$0.087	6/18	1.19s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.19s
#151	Mercury 2 none	Inception	1	4.6	$0.011	4/21	653ms
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 653ms

←

1 6 7 8 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल