निर्देश पालन x गलत उत्तर रैंकिंग

देखें कि निर्देश पालन में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

गलत उत्तर61 निर्देशों का पालन नहीं किया18 अतिरिक्त फॉर्मेटिंग3 कोई उत्तर नहीं2 API त्रुटि1 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

61/61

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#159	GPT-5.6 Luna none	OpenAI	1	7.1	$0.142	1/2	1.23s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 1.23s
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 364ms
#161	Qwen3.6 35B A3B none	Qwen	1	6.2	$0.061	1/2	1.86s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 1.86s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#164	Inkling none	Thinkingmachines	1	6.3	$0.147	1/2	1.72s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 1.72s
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 380ms
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 7.78s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.38s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 1.38s
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 751ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 514ms
#170	GLM 5 Turbo none	Z.ai	1	6.5	$0.047	1/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.13s
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.8s
#174	GPT-4o-mini none	OpenAI	1	6.3	$0.010	1/2	1.11s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.11s
#176	GLM 4.7 Flash none	Z.ai	1	6.5	$0.016	1/2	888ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 888ms

←

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

निर्देश पालन: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल