पहेली समाधान x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Gemini 3.1 Flash Lite 2

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#120	Gemini 3.1 Flash Lite minimal	Google	2	6.0	$0.047	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.15s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 50.8s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 1.07s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 24.4s
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 6.60s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 10.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.970 प्रतिक्रिया समय (औसत) 33.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 26.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 56.8s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल