নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

MiniMax M2.7 5

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
মোট টেস্ট 18 ভুল টেস্ট 8 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 62.0s
#148	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 9.88s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 2.98s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 9.61s
#188	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 39.9s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 68.3s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
মোট টেস্ট 21 ভুল টেস্ট 16 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.22s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
মোট টেস্ট 19 ভুল টেস্ট 16 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.62s
#13	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 17.0s
#16	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 25.0s
#18	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 23.1s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 11.5s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $1.694 প্রতিক্রিয়া সময় (গড়) 31.5s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 48.5s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 49.7s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল