निर्देश पालन x गलत उत्तर रैंकिंग

देखें कि निर्देश पालन में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

गलत उत्तर61 निर्देशों का पालन नहीं किया18 अतिरिक्त फॉर्मेटिंग3 कोई उत्तर नहीं2 API त्रुटि1 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

61/61

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#177	Nemotron 3 Super none	NVIDIA	1	6.3	$0.008	1/2	804ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 804ms
#180	GPT-5.4 Nano none	OpenAI	1	6.3	$0.041	1/2	784ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 784ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 822ms
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 7.49s
#189	Mercury 2 none	Inception	1	6.5	$0.030	1/2	551ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 551ms
#191	Grok 4.20 Beta none	X AI	1	6.3	$0.087	1/2	649ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 649ms
#192	Laguna M.1 none	Poolside	1	6.3	$0.009	1/2	683ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 683ms
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 2.97s
#196	Hunter Alpha none	OpenRouter	1	6.4	$0.000	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.82s
#197	Grok 4.20 none	X AI	1	6.3	$0.057	1/2	445ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 445ms
#200	MiMo-V2-Flash none	Xiaomi	1	6.5	$0.025	1/2	857ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 857ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 685ms
#205	Laguna Xs.2 none	Poolside	1	6.5	$0.004	1/2	439ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 439ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 541ms

←

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

निर्देश पालन: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल