पहेली समाधान x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Qwen3.5-27B 1

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 59.6s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 56.8s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 50.8s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 46.7s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 43.2s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.5s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.970 प्रतिक्रिया समय (औसत) 33.7s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 31.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 26.1s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 24.9s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 24.4s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 23.7s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल