पहेली समाधान x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

GPT-5.4 Nano 1

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 3.79s
#91	LongCat 2.0 low	Meituan	1	3.1	$0.391	0/3	8.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 8.15s
#97	LongCat 2.0 high	Meituan	1	3.1	$0.469	0/3	9.18s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 9.18s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.35s
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.050 प्रतिक्रिया समय (औसत) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 1.00s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 23.7s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.57s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 1.07s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 399ms
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 2.17s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 621ms

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल