ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

GPT-5.4 Nano 1

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 3.79s
#91	LongCat 2.0 low	Meituan	1	3.1	$0.391	0/3	8.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 8.15s
#97	LongCat 2.0 high	Meituan	1	3.1	$0.469	0/3	9.18s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 9.18s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 1.35s
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 1.00s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 23.7s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 1.57s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 1.07s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 5.36s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 399ms
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 2.17s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 621ms

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল