নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

MiniMax M2.7 5

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
মোট টেস্ট 19 ভুল টেস্ট 17 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 728ms
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
মোট টেস্ট 22 ভুল টেস্ট 3 মোট খরচ $0.642 প্রতিক্রিয়া সময় (গড়) 8.20s
#15	Grok 4.5 high	X AI	1	8.9	$1.707	17/22	76.5s
মোট টেস্ট 22 ভুল টেস্ট 5 মোট খরচ $1.707 প্রতিক্রিয়া সময় (গড়) 76.5s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.922 প্রতিক্রিয়া সময় (গড়) 12.5s
#28	Gemini 2.5 Flash medium	Google	1	8.2	$0.643	15/22	21.2s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.643 প্রতিক্রিয়া সময় (গড়) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.1	$0.584	14/22	9.48s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.584 প্রতিক্রিয়া সময় (গড়) 9.48s
#32	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.006 প্রতিক্রিয়া সময় (গড়) 64.2s
#33	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.515 প্রতিক্রিয়া সময় (গড়) 26.4s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.604 প্রতিক্রিয়া সময় (গড়) 7.65s
#35	GLM 5.2 high	Z.ai	1	8.0	$0.817	14/22	62.7s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.817 প্রতিক্রিয়া সময় (গড়) 62.7s
#41	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.405 প্রতিক্রিয়া সময় (গড়) 43.1s
#46	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
মোট টেস্ট 21 ভুল টেস্ট 6 মোট খরচ $0.307 প্রতিক্রিয়া সময় (গড়) 33.5s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $3.059 প্রতিক্রিয়া সময় (গড়) 34.3s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
মোট টেস্ট 21 ভুল টেস্ট 7 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 23.0s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.740 প্রতিক্রিয়া সময় (গড়) 84.2s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল