ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.1 Flash Lite 2

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#120	Gemini 3.1 Flash Lite minimal	Google	2	6.0	$0.047	1/3	2.15s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 2.15s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 50.8s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 1.07s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 24.4s
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.951 প্রতিক্রিয়া সময় (গড়) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 6.60s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.006 প্রতিক্রিয়া সময় (গড়) 10.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.970 প্রতিক্রিয়া সময় (গড়) 33.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 26.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 56.8s

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল