নির্দেশনা অনুসরণ x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Granite 4.1 8B 1

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

18/18

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 344ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 541ms
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 621ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 685ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 822ms
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 1.15s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.524 প্রতিক্রিয়া সময় (গড়) 1.33s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	1.37s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.37s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 2.04s
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 4.63s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 4.78s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 4.99s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 5.42s
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 6.31s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 6.97s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল