নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

MiniMax M2.7 5

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 19.2s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
মোট টেস্ট 21 ভুল টেস্ট 15 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 2.82s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 29.9s
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 5.97s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 10.7s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 55.1s
#186	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 2.57s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $5.599 প্রতিক্রিয়া সময় (গড়) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.3s
#200	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.166 প্রতিক্রিয়া সময় (গড়) 142.6s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
মোট টেস্ট 21 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.27s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 4.70s
#206	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 2.76s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
মোট টেস্ট 19 ভুল টেস্ট 12 মোট খরচ $0.547 প্রতিক্রিয়া সময় (গড়) 28.7s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
মোট টেস্ট 19 ভুল টেস্ট 13 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 21.6s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল