ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.5-27B 1

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 59.6s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 56.8s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 50.8s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $2.310 প্রতিক্রিয়া সময় (গড়) 46.7s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.600 প্রতিক্রিয়া সময় (গড়) 43.2s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 42.5s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.751 প্রতিক্রিয়া সময় (গড়) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.970 প্রতিক্রিয়া সময় (গড়) 33.7s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 31.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 26.1s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 24.9s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 24.4s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 23.7s

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল