निर्देश पालन x गलत उत्तर रैंकिंग

देखें कि निर्देश पालन में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

North Mini Code 1

विफलता के कारण

गलत उत्तर61 निर्देशों का पालन नहीं किया18 अतिरिक्त फॉर्मेटिंग3 कोई उत्तर नहीं2 API त्रुटि1 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

61/61

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.8s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.2s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 8.81s
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 7.78s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 7.49s
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 7.47s
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 7.38s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 6.96s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.39s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 4.26s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.12s
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 2.97s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 2.84s

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

निर्देश पालन: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल