निर्देशों का पालन नहीं किया विफलता रैंकिंग

AI BENCHY विफलताएँ

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

कुल विफलताएँ

220

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 1

श्रेणियाँ

पहेली समाधान श्रेणी में82 Samanya Buddhimatta श्रेणी में72 एंटी-एआई ट्रिक्स श्रेणी में30 कोडिंग श्रेणी में16 निर्देश पालन श्रेणी में12 टूल कॉलिंग श्रेणी में6 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

121/121

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	6.1	$0.027	8/21	2.27s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 2.27s
#98	Gemma 4 31B none	Google	1	6.1	$0.004	10/21	4.05s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 4.05s
#96	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.013	9/21	1.06s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 1.06s
#95	Gemini 3.1 Flash Lite Preview high	Google	1	6.1	$2.310	13/16	68.1s
कुल टेस्ट 16 गलत टेस्ट 3 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 68.1s
#94	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.013	10/21	1.33s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 1.33s
#87	Nemotron 3 Super medium	NVIDIA	3	6.3	$0.021	8/21	32.0s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 32.0s
#84	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.018	12/21	1.21s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 1.21s
#83	Gemini 3.1 Flash Lite high	Google	3	6.5	$2.044	10/18	62.0s
कुल टेस्ट 18 गलत टेस्ट 8 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 62.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.026	13/21	2.77s
कुल टेस्ट 21 गलत टेस्ट 8 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 2.77s
#81	Qwen3.6 27B medium	Qwen	1	6.6	$0.440	10/21	59.7s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.440 प्रतिक्रिया समय (औसत) 59.7s
#80	Step 3.5 Flash medium	Stepfun	3	6.6	$0.070	11/20	72.5s
कुल टेस्ट 20 गलत टेस्ट 9 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 72.5s
#79	GPT-5 Nano medium	OpenAI	2	6.7	$0.081	9/21	42.5s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.081 प्रतिक्रिया समय (औसत) 42.5s
#78	gpt-oss-120b medium	OpenAI	3	6.7	$0.013	9/21	22.3s
कुल टेस्ट 21 गलत टेस्ट 12 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 22.3s
#77	Mimo V2 PRO medium	Xiaomi	1	6.7	$0.333	12/21	22.2s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 22.2s
#76	MiMo-V2.5 medium	Xiaomi	1	6.7	$0.063	12/21	27.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.063 प्रतिक्रिया समय (औसत) 27.1s

←

1 4 5 6 9

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल