Samanya Buddhimatta x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Qwen3.5-27B 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 101.4s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 69.7s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 58.6s
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 58.3s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 45.7s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 40.1s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 39.5s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 38.7s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 36.7s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 33.3s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 27.1s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 25.2s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 24.5s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 23.2s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल