ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.1 Flash Lite 2

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#103	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 1.38s
#108	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 20.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 5.08s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/3	4.23s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.035 প্রতিক্রিয়া সময় (গড়) 4.23s
#121	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 21.7s
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 720ms
#123	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 2.97s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 1.35s
#128	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 20.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.06s
#130	Step 3.5 Flash medium	Stepfun	1	5.3	$0.108	1/3	7.22s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 7.22s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	1/3	2.38s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 2.38s
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 836ms
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 1.40s

←

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল