ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.1 Flash Lite 2

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 5.23s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.751 প্রতিক্রিয়া সময় (গড়) 41.0s
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 3.79s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 4.37s
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 59.6s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 25.1s
#73	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 22.5s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 37.7s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.600 প্রতিক্রিয়া সময় (গড়) 43.2s
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 949ms
#84	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.31s
#85	Qwen3.6 Flash medium	Qwen	1	8.2	$0.738	2/3	6.29s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 6.29s
#91	LongCat 2.0 low	Meituan	1	3.1	$0.391	0/3	8.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 8.15s
#97	LongCat 2.0 high	Meituan	1	3.1	$0.469	0/3	9.18s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 9.18s
#100	Hy3 preview medium	Tencent	1	7.7	$0.018	2/3	11.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 11.1s

←

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল