निर्देश पालन x गलत उत्तर रैंकिंग

देखें कि निर्देश पालन में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Laguna XS 2.1 1

विफलता के कारण

गलत उत्तर61 निर्देशों का पालन नहीं किया18 अतिरिक्त फॉर्मेटिंग3 कोई उत्तर नहीं2 API त्रुटि1 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

61/61

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 364ms
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 822ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 685ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 541ms
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.39s

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

निर्देश पालन: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल