Samanya Buddhimatta x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Grok 4.5 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.31s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	5.8	$5.599	0/1	6.40s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 6.40s
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 873ms
#184	Hunter Alpha medium	OpenRouter	1	7.0	$0.000	0/1	6.44s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 6.44s
#185	Grok 4.1 Fast medium	X AI	1	4.2	$0.069	0/1	16.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 16.2s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	0/1	1.39s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 1.39s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 23.2s
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 628ms
#190	MiniMax M2.5 medium	Minimax	1	3.8	$0.340	0/1	6.63s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 6.63s
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 541ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 854ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 920ms
#196	Hunter Alpha none	OpenRouter	1	6.1	$0.000	0/1	2.71s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.71s
#199	Hy3 preview none	Tencent	1	4.1	$0.003	0/1	16.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 16.1s
#200	MiMo-V2-Flash none	Xiaomi	1	4.6	$0.025	0/1	1.67s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.67s

←

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल