নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Nemotron 3 Nano Omni 30b A3b Reasoning 2

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 36.8s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
মোট টেস্ট 12 ভুল টেস্ট 6 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 39.0s
#194	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 39.9s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
মোট টেস্ট 21 ভুল টেস্ট 11 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 41.2s
#178	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 41.3s
#41	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.405 প্রতিক্রিয়া সময় (গড়) 43.1s
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 44.7s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 47.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 48.5s
#49	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.041	13/22	49.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 49.7s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.055 প্রতিক্রিয়া সময় (গড়) 52.0s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 55.1s
#94	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.746 প্রতিক্রিয়া সময় (গড়) 58.1s
#149	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
মোট টেস্ট 18 ভুল টেস্ট 8 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 62.0s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল