নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

Nemotron 3 Nano Omni 30b A3b Reasoning 2

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#129	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 3.87s
#154	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 4.27s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 4.61s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 4.62s
#196	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 4.70s
#103	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 4.76s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 4.91s
#117	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 5.04s
#123	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s
#115	Gemma 4 31B none	Google	1	6.2	$0.035	10/22	5.34s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.035 প্রতিক্রিয়া সময় (গড়) 5.34s
#161	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 5.52s
#177	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 5.97s
#112	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 6.04s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল