पहेली समाधान x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Gemini 3.1 Flash Lite 2

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#139	GPT-5.4 none	OpenAI	1	5.6	$0.397	1/3	1.44s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 1.44s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.050 प्रतिक्रिया समय (औसत) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 1.00s
#145	GLM 5V Turbo none	Z.ai	1	5.3	$0.052	1/3	2.40s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 2.40s
#146	Owl Alpha medium	Openrouter	1	5.3	$0.000	1/3	3.40s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.40s
#147	Mimo V2 PRO none	Xiaomi	1	6.0	$0.045	1/3	1.61s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 1.61s
#148	Owl Alpha none	Openrouter	1	5.4	$0.000	1/3	4.18s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.18s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 23.7s
#152	Qwen3.6 27B none	Qwen	1	5.3	$0.087	1/3	5.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 5.15s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.7	$0.068	1/3	1.30s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 1.30s
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 744ms
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.57s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 46.7s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 399ms

←

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल