নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

LFM2-24B-A2B 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.86s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 5.04s
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 5.34s
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.139 প্রতিক্রিয়া সময় (গড়) 84.8s
#119	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
মোট টেস্ট 21 ভুল টেস্ট 9 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 20.1s
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 6.04s
#115	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
মোট টেস্ট 21 ভুল টেস্ট 9 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 22.2s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 68.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 1.58s
#110	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 16.7s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 4.76s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.082 প্রতিক্রিয়া সময় (গড়) 32.2s
#106	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
মোট টেস্ট 21 ভুল টেস্ট 7 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 16.3s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 106.3s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 148.7s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল