ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

GPT-5.3-Codex 1

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.951 প্রতিক্রিয়া সময় (গড়) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 6.60s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.006 প্রতিক্রিয়া সময় (গড়) 10.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.970 প্রতিক্রিয়া সময় (গড়) 33.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 26.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 56.8s
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 5.23s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.751 প্রতিক্রিয়া সময় (গড়) 41.0s
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 3.79s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 4.37s

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল