Samanya Buddhimatta x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Grok 4.5 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	4.0	$0.646	0/1	1.54s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 1.54s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 741ms
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 58.3s
#112	Claude Sonnet 5 none	Anthropic	1	4.7	$0.548	0/1	2.81s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 2.81s
#113	MiMo-V2-Flash medium	Xiaomi	1	4.0	$0.043	0/1	4.20s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 4.20s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 40.1s
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 791ms
#121	gpt-oss-120b medium	OpenAI	1	4.3	$0.019	0/1	7.90s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 7.90s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.8	$0.122	0/1	1.41s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.41s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.19s
#128	GPT-5 Nano medium	OpenAI	1	4.1	$0.114	0/1	17.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 17.5s
#130	Step 3.5 Flash medium	Stepfun	1	5.5	$0.108	0/1	22.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 22.4s
#136	GPT-5.4 Mini none	OpenAI	1	4.8	$0.095	0/1	1.82s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 1.82s
#138	Kimi K2.6 none	Moonshot AI	1	5.4	$0.184	0/1	1.55s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.55s
#140	Nemotron 3 Super medium	NVIDIA	1	4.1	$0.050	0/1	6.91s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.050 प्रतिक्रिया समय (औसत) 6.91s

←

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल