निर्देश पालन x गलत उत्तर रैंकिंग

देखें कि निर्देश पालन में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

गलत उत्तर61 निर्देशों का पालन नहीं किया18 अतिरिक्त फॉर्मेटिंग3 कोई उत्तर नहीं2 API त्रुटि1 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

61/61

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.39s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 6.96s
#103	Qwen3.5-27B none	Qwen	1	6.3	$0.090	1/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 1.03s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.82s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 2.84s
#124	Qwen3.6 Flash none	Qwen	1	6.3	$0.062	1/2	1.10s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.10s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 8.81s

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

निर्देश पालन: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल