पहेली समाधान x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

GPT-5.3-Codex 1

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 6.60s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 26.1s
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 5.23s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 4.37s
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 59.6s
#85	Qwen3.6 Flash medium	Qwen	1	8.2	$0.738	2/3	6.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 6.29s
#100	Hy3 preview medium	Tencent	1	7.7	$0.018	2/3	11.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 11.1s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 46.7s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 31.5s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 15.2s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल