Samanya Buddhimatta x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Grok 4.5 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 1.12s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 45.7s
#145	GLM 5V Turbo none	Z.ai	1	4.6	$0.052	0/1	2.22s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 2.22s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 58.6s
#147	Mimo V2 PRO none	Xiaomi	1	4.3	$0.045	0/1	2.44s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.44s
#148	Owl Alpha none	Openrouter	1	4.3	$0.000	0/1	4.61s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.61s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.0	$0.048	0/1	9.81s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 9.81s
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.07s
#156	Gemma 4 26B A4B none	Google	1	4.0	$0.015	0/1	3.54s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 3.54s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	5.0	$0.041	0/1	10.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 10.1s
#162	Ling-2.6-1T none	Inclusionai	1	5.0	$0.016	0/1	20.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 20.3s
#167	Mistral Small 4 medium	Mistral	1	4.8	$0.096	0/1	2.05s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 2.05s
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 552ms
#170	GLM 5 Turbo none	Z.ai	1	4.2	$0.047	0/1	2.18s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.18s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 38.7s

←

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल