নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

LFM2-24B-A2B 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#145	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.397 প্রতিক্রিয়া সময় (গড়) 2.07s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 19.6s
#142	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.53s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
মোট টেস্ট 21 ভুল টেস্ট 11 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 41.2s
#138	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 1.65s
#137	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
মোট টেস্ট 18 ভুল টেস্ট 4 মোট খরচ $0.750 প্রতিক্রিয়া সময় (গড়) 9.75s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 174.2s
#135	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 3.87s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 54.9s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 13.6s
#130	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 3.74s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 1.75s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 21.9s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল