Samanya Buddhimatta x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Grok 4.5 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 2.51s

←

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल