নির্দেশনা অনুসরণ x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

MiniMax M2.7 1

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

18/18

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 822ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 685ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 541ms
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.694 প্রতিক্রিয়া সময় (গড়) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.524 প্রতিক্রিয়া সময় (গড়) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 6.97s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল