निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 1

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	7.8	$0.068	13/21	3.96s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.96s
#30	Qwen3.6 Plus medium	Qwen	1	7.8	$0.294	14/21	30.7s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.294 प्रतिक्रिया समय (औसत) 30.7s
#29	Qwen3.5-27B medium	Qwen	2	7.9	$0.536	13/21	68.4s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.536 प्रतिक्रिया समय (औसत) 68.4s
#27	GPT-5.4 Mini medium	OpenAI	3	8.0	$0.526	12/21	22.3s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.526 प्रतिक्रिया समय (औसत) 22.3s
#24	Gemini 2.5 Flash medium	Google	1	8.2	$0.379	14/21	15.5s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.379 प्रतिक्रिया समय (औसत) 15.5s
#23	DeepSeek V4 Flash high	DeepSeek	2	8.3	$0.027	13/21	45.8s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 45.8s
#22	GPT-5.2 medium	OpenAI	3	8.4	$0.548	13/21	16.9s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 16.9s
#21	GLM 5 Turbo medium	Z.ai	1	8.4	$0.323	14/21	23.0s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 23.0s
#20	Step 3.7 Flash medium	Stepfun	1	8.5	$0.376	14/21	20.4s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 20.4s
#18	Seed-2.0-Lite medium	Bytedance Seed	2	8.5	$0.175	14/21	47.1s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.175 प्रतिक्रिया समय (औसत) 47.1s
#19	GPT-5.2 Chat none	OpenAI	1	8.5	$0.393	14/21	7.13s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.393 प्रतिक्रिया समय (औसत) 7.13s
#17	GPT-5.4 medium	OpenAI	2	8.5	$1.210	14/21	22.3s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $1.210 प्रतिक्रिया समय (औसत) 22.3s
#16	GPT-5 Mini medium	OpenAI	3	8.5	$0.159	12/21	23.6s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 23.6s
#15	GLM 5 medium	Z.ai	1	8.6	$0.228	15/21	33.5s
कुल टेस्ट 21 गलत टेस्ट 6 कुल लागत $0.228 प्रतिक्रिया समय (औसत) 33.5s
#10	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.740	15/21	16.2s
कुल टेस्ट 21 गलत टेस्ट 6 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 16.2s

←

1 7 8 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल