নির্দেশনা অনুসরণ x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 1

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

18/18

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.694 প্রতিক্রিয়া সময় (গড়) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.524 প্রতিক্রিয়া সময় (গড়) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 6.97s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 822ms
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 621ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 344ms

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল