ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

GPT-5.3-Codex 1

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.951 প্রতিক্রিয়া সময় (গড়) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 6.60s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 26.1s
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 5.23s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 4.37s
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 59.6s
#85	Qwen3.6 Flash medium	Qwen	1	8.2	$0.738	2/3	6.29s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 6.29s
#100	Hy3 preview medium	Tencent	1	7.7	$0.018	2/3	11.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 11.1s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $2.310 প্রতিক্রিয়া সময় (গড়) 46.7s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 31.5s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 15.2s

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল