निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

Owl Alpha 2

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#57	Claude Opus 4.8 none	Anthropic	1	7.2	$0.539	12/21	3.47s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.47s
#160	Grok Build 0.1 none	X AI	2	4.2	$0.547	7/19	28.7s
कुल टेस्ट 19 गलत टेस्ट 12 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 28.7s
#22	GPT-5.2 medium	OpenAI	3	8.4	$0.548	13/21	16.9s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 16.9s
#8	Gemini 3.5 Flash medium	Google	1	9.1	$0.582	18/21	4.94s
कुल टेस्ट 21 गलत टेस्ट 3 कुल लागत $0.582 प्रतिक्रिया समय (औसत) 4.94s
#65	Kimi K2.7 Code medium	Moonshot AI	1	7.0	$0.583	11/21	83.6s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.583 प्रतिक्रिया समय (औसत) 83.6s
#53	Grok 4.20 medium	X AI	2	7.3	$0.609	12/21	27.7s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 27.7s
#37	Grok 4.3 medium	X AI	2	7.7	$0.614	13/21	47.5s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 47.5s
#73	Mimo V2 Omni medium	Xiaomi	2	6.8	$0.683	10/21	41.2s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 41.2s
#10	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.740	15/21	16.2s
कुल टेस्ट 21 गलत टेस्ट 6 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 16.2s
#69	Grok 4.20 Beta medium	X AI	1	6.8	$0.750	14/18	9.75s
कुल टेस्ट 18 गलत टेस्ट 4 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 9.75s
#35	Kimi K2.6 medium	Moonshot AI	2	7.8	$0.889	12/21	71.7s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 71.7s
#17	GPT-5.4 medium	OpenAI	2	8.5	$1.210	14/21	22.3s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $1.210 प्रतिक्रिया समय (औसत) 22.3s
#83	Gemini 3.1 Flash Lite high	Google	3	6.5	$2.044	10/18	62.0s
कुल टेस्ट 18 गलत टेस्ट 8 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 62.0s
#38	Claude Opus 4.6 medium	Anthropic	1	7.7	$2.053	12/21	25.9s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 25.9s
#95	Gemini 3.1 Flash Lite Preview high	Google	1	6.1	$2.310	13/16	68.1s
कुल टेस्ट 16 गलत टेस्ट 3 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 68.1s

←

1 7 8 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल