निर्देश पालन x कोई उत्तर नहीं रैंकिंग

देखें कि निर्देश पालन में किन AI मॉडलों में कोई उत्तर नहीं आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

गलत उत्तर61 निर्देशों का पालन नहीं किया18 अतिरिक्त फॉर्मेटिंग3 कोई उत्तर नहीं2 API त्रुटि1 समय समाप्त1

श्रेणियाँ

संयुक्त29 कोडिंग18 सामान्य ज्ञान13 डेटा पार्सिंग और निष्कर्षण8 डोमेन-विशिष्ट8 एंटी-एआई ट्रिक्स4 पहेली समाधान3 टूल कॉलिंग2 निर्देश पालन2

2/2

रैंक	मॉडल	कंपनी	कोई उत्तर नहीं संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#143	Gemini 3.1 Flash Lite high	Google	1	7.3	$2.044	1/2	23.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 23.3s
#204	Qwen3.5-9B medium	Qwen	1	6.5	$0.036	1/2	5.75s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 5.75s

मॉडल फ़िल्टर करें