Samanya Buddhimatta x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#210	LFM2-24B-A2B none	Liquid	1	4.0	$0.001	0/1	395ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 395ms
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 541ms
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 552ms
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 628ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 741ms
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 791ms
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 821ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 854ms
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 873ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 920ms
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.07s
#203	Grok 4.1 Fast none	X AI	1	4.4	$0.008	0/1	1.08s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.08s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 1.12s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.19s
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.31s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल